AIセーフティとは? わかりやすく解説

Weblio 辞書 > 辞書・百科事典 > 百科事典 > AIセーフティの意味・解説 

AIセーフティ

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2025/08/16 18:44 UTC 版)

AIセーフティ (: AI safety) は、人工知能 (AI) がもたらす事故や誤用、リスクを防ぐための方法等に関わる学際的な研究分野[1]。日本語では「AIの安全性」とも呼ばれる[2][3]AIアライメント、AIシステムにおけるリスクの監視、そして堅牢性の向上などが含まれる。

AIセーフティには、技術研究を超えて、安全性を促進する規範や政策の策定も含まれる。2023年には、生成AIの急速な進歩や、研究者やCEOがAIの潜在的な危険性に関する懸念を表明したことを受け、AIセーフティは大きく注目された。2023年のAI安全性サミットでは、米国と英国がそれぞれ独自のAIセーフティ・インスティテュート (AISI) を設立し、日本も2024年2月14日にこれを設立した[2][4]。しかし、研究者の間では、AIの能力の急速な発展に対してAIの安全対策が追いついていないことが懸念されている[5]

専門家らの議論と見解

学者らは、重要システムの障害[6]アルゴリズムバイアス[7]、AI監視システムを使うことによるプライバシーの侵害[8]など、現在のリスクに加え、技術的失業、AIによる心理操作[9]、兵器化[10]、AIを活用したサイバー攻撃[11]バイオテロ[12]などの新興リスクについても議論をしてきた。また、将来において汎用人工知能 (AGI) が制御不能になったり[13]、 AIが永続的に安定した独裁政権を可能にするというような理論上のリスクについても議論されてきている[14]

人類の存続に関わる安全性

汎用人工知能 (AGI) に関する懸念を批判する学者もいる。例えば、アンドリュー・ンは2015年に、AGIに対する懸念を「まだ火星に足を踏み入れてもいないのに、火星の人口過密を心配する」ことに例えた[15]。一方、スチュアート・ラッセルは、「人間の創意工夫を過小評価するよりも、それに備えておいた方がよい」と主張し、慎重な姿勢を促している[16]

AI研究者の間でも、AI技術がもたらすリスクの深刻さや主な原因について、意見が大きく異なっている[17][18][19]。しかし、以下に示す調査結果によると、専門家はAIの重大なリスクを真剣に受け止めているようであることがわかる。AI研究者を対象とした2つの調査では、回答者の中央値はAIについて全体として楽観的であったものの、高度なAIが「極めて悪い(例:人類の絶滅)」結果をもたらす可能性を5%と回答した[17]自然言語処理学者を対象とした2022年の調査では、AIの判断が「全面核戦争と同程度かそれ以上の」大惨事につながる可能性はあるかという質問に、回答者の約37%が「そう思う」または「どちらかといえばそう思う」と回答した[20]

歴史

AIのリスクについては情報化時代の到来とともに真剣に議論されるようになった。

Moreover, if we move in the direction of making machines which learn and whose behavior is modified by experience, we must face the fact that every degree of independence we give the machine is a degree of possible defiance of our wishes.(→さらにまた、学習する機械、経験によって行動を変える機械を作り出す方向に我々が進むのであれば、その機械に与える自立性の度合いが、我々の命令が背かれる可能性の度合いでもあるという事実に向き合わなければならない。)
Norbert Wiener (1949)[21]

1988年、ブレイ・ウィットビー英語版は、Artificial intelligence: a handbook of professionalism を発表し、倫理的で社会的責任を負ったAI開発の必要性を訴えた[22]

2008年から2009年にかけて、AAAI(アメリカ人工知能学会)は、AI開発の長期社会的影響を探り対処するための研究を専門家グループに依頼した。専門家の多くはSFの著者によって表明された急進的な見解に懐疑的だったが、「予期しない結果を最小限に抑えるため、複雑な計算システムの行動範囲を理解し、検証する方法をさらに研究する価値はある」と同意した[23]

2011年、ローマン・ヤンポルスキー英語版は、Philosophy and Theory of Artificial Intelligence(人工知能の哲学と理論)と題された会議 で「AI safety engineering (AI安全工学) 」という用語を導入し[24][25]、AIによる事故事例をリスト化し、「AIの能力が高まるにつれて、失敗の頻度と深刻さが着実に増加する」と主張した[26]

2014年、哲学者のニック・ボストロムは、Superintelligence: Paths, Dangers, Strategiesを出版した。同書でニックは、 汎用人工知能 (AGI) の台頭は、技術的失業、政治および軍事構造の操作、人間の絶滅の可能性まで、さまざまな社会的問題を生じさせる可能性があるという意見を表明した[27]。将来の高度なシステムが人間の存在に対する脅威をもたらす可能性があるという彼の主張は、イーロン・マスク[28]ビル・ゲイツ[29]のような人々に影響を与えている。スティーヴン・ホーキング[30]もニックと同じような懸念を表明している。

2015年、スティーヴン・ホーキングやイーロン・マスクなどと数十人のAIの専門家[31]が、AIの社会的影響と具体的な方向性の概要に関する研究に関する人工知能についての公開書簡英語版「Research Priorities for Robust and Beneficial Artificial Intelligence (ロバストで有益な人工知能のための研究のプライオリティ) [注 1]」に署名した[33]。現在に至るまでに、この公開書簡はヤン・ルカンヨシュア・ベンジオスチュアート・ラッセルを含む8000人以上の人々によって署名されている。

同年、スチュアート・ラッセル教授の研究チームは、カリフォルニア大学バークレー校に人間互換人工知能センターを設立し、人工知能が安全で倫理的かつ有益なままであり続けることを目的とした研究に650万ドルの助成金が与えられた[34][出典無効]

2016年、ホワイトハウス科学技術政策局カーネギーメロン大学は、人工知能の安全性と管理に関する公開ワークショップを発表した[35]。これは、AIの「利点と欠点」を調査することを目的としたホワイトハウスが開催する4つのワークショップの1つであった[36]。 同年、AIセーフティに関する最初にして最も影響力のある技術的アジェンダの1つである「Concrete Problems in AI Safety」が出版された[37]

有益なAIに関するアシロマ会議の参加者の集合写真

2017年1月、カリフォルニア州アシロマに、全世界からAIの研究者と経済学、法律、倫理、哲学の専門家が集まり、「人類にとって有益なAIとは何か」というテーマで5日間にわたって議論が行われた (有益なAIに関するアシロマ会議英語版)[38]。その成果として2017年2月3日に「アシロマ AI 23原則 (Asilomar AI Principles)」[39]が発表された。この原則は、AIの研究、倫理・価値観、将来的な問題の3つの分野に関して、研究開発のあり方、安全基準の遵守、透明性の確保、軍拡競争の防止、プライバシーと人格の尊重など、幅広い視点からの提言がなされた。強制力こそないものの、この原則にはスティーヴン・ホーキングイーロン・マスクや、シンギュラリティ大学の創設者レイ・カーツワイルのような支持者がいる[40]

2021年には、Unsolved Problems in ML Safety が発表された。この文書では、機械学習 (ML) システムを扱うことで発生するリスクを低減させるための具体的な研究指針として、堅牢性、モニタリング、アライメント、システム全体の安全性が示された[41]

イギリスのリシ・スナク首相は、2023年に英国を「世界のAI安全規制の知的拠点だけでなく、地理的な拠点にする」と表明し、AIセーフティに関する初の国際サミットを主催したいと述べた[42]。そしてAI安全性サミットが2023年11月に開催され、最先端のAIモデルに関連する不適切な利用や制御の喪失のリスクに焦点を当てた議論が行われた[43]。サミットでは、先進AIの安全性に関する国際科学報告書を作成する意向が発表された[44]

2024年11月にブレッチリー・パークで開催されたAI安全性サミットで発表されたコミットメントに基づき、2024年4月1日、ジーナ・レモンド米国商務長官とミシェル・ドネラン英国科学・イノベーション・技術相は、高度なAIモデルを共同で開発するための覚書に署名し[45]、米国と英国はAIセーフティに関する研究において新たなパートナーシップを締結した。

2025年、ヨシュア・ベンジオを議長とする96名の専門家からなる国際チームが、初の国際AI安全報告書(International AI Safety Report) を発表した。これは、30の国と国連の委託を受け作成された、高度なAIに伴う潜在的なリスクに関する初の国際的な科学的報告書である。この報告書は、AIの不適切な利用、誤動作、そして社会の混乱に起因する潜在的な脅威を詳細に記述しており、具体的な勧告は示さず、根拠に基づく科学的知見に基づいて政策提言を行うことを目指している[46][47]

日本において

2019年

3月29日、日本は世界に先駆けて「人間中心のAI社会原則」を公表した[48]。この原則では3つの基本理念 (①人間の尊厳が尊重される社会、②多様な背景を持つ人々が多様な幸せを追求できる社会、③持続性ある社会) を掲げ、7つのAI社会原則 (①人間中心の原則、②教育・リテラシーの原則、③プライバシー確保の原則、④セキュリティ確保の原則、⑤構成競走確保の原則、⑥公平性、説明責任及び透明性の原則、⑦イノベーションの原則) を示した。

2023年

5月、G7広島サミットが開催され、G7の関係閣僚が中心となり、AIの活用や開発、規制に関する国際的なルール作りを推進するため、「広島AIプロセス」の枠組みが整えられた[49]。また、10月30日にはこれに基づく「広島AIプロセスに関するG7首脳声明」が発出された[50]

2024年

2月14日、英国と米国に続き日本もAIセーフティ・インスティテュート(AISI)を設立した[2][4]

4月19日、AIの安全安心かつ有効な活用が促進されるよう、AIの開発・提供・利用に当たっての必要な取組みについて基本的な考え方を示す[51]ため経済産業省は「AI事業者ガイドライン」を発表した[52]

9月18日、AISIは「AIセーフティに関する評価観点ガイド」を公表した[53]

2025年

3月26日、AISIは、AIセーフティの普及に向け、AIセーフティの要点を簡単にまとめた「AIセーフティ・アプローチブック」を公表した[54]

4月15日、GPAI(Global Partnership on AI、AIに関するグローバル・パートナーシップ)東京専門家支援センターは、生成AIの安全性と保証に関するプロジェクトの一環で、アラブ首長国連邦の行政学校MBRSGと連携し、汎用AIの安全性に関するツールキットを開発したことを発表した[55]

5月27日、デジタル庁は「行政の進化と革新のための生成AIの調達・利活用に係るガイドライン」を公表し、政府業務における生成AI導入の基準を初めて明文化した。このガイドラインでは、各府省に「Chief AI Innovation Officer(CAIO)」と呼ばれる役職を置く義務を明示した。あわせて、デジタル庁には技術・倫理の専門家で構成される「先進的AI利活用アドバイザリーボード」が設置された[56][57]

5月28日、「人工知能関連技術の研究開発及び活用の推進に関する法律」が参議院本会議で可決、成立し、6月4日に施行された。この法律は、国際的な原則を踏まえつつ、AIの活用における革新と安全対策を両立させ、日本をAIの先進的な利用環境にすることを狙いとして、関係主体の責務や国の施策を定めている[58][59]

研究の焦点

AIの安全性に関する研究分野には、AIシステムの堅牢性の向上、モニタリング、アライメントが含まれている[41][60]

堅牢性

敵対的ロバストネス

AIは、敵対的サンプル、つまり「攻撃者が意図的にモデルに誤りを生じさせるように設計した機械学習モデルへの入力」に対して脆弱であることが多い[61]。たとえば、2013年にマリオ・セゲディ英語版らは、画像に特定の摂動 (人間にはわからないようなわずかなノイズ) を加えると、高い信頼性で誤分類される可能性があることを発見した[62]

慎重に作成されたノイズを画像に加算すると、高い信頼性で誤分類される可能性がある。

例として、右図のビーグル犬の画像(左)をAIに入力すると高確率で正しくビーグル犬だと分類されるとする。この画像に摂動データ(中央)を加算した敵対的サンプル画像(右)は、人間の目には変化がないとしてもAIにはダチョウに誤認されるようになることがある。 報酬モデル (AIが学習する際に、どの行動が「良い」と評価されるかを定義する仕組み) も敵対的攻撃に対して堅牢でなければならない。たとえば、与えられた質問に対する言語モデルの回答がどれだけ役立つかを報酬モデルに推定させ、そのスコアを最大化するように言語モデルをトレーニングする、というような活用がある[63]。しかし、言語モデルを長期間トレーニングさせると、報酬モデルの脆弱性に乗じる方法で良いスコアを達成し (報酬ハッキング)、本来意図したタスクのパフォーマンスを低下させることがある[64]。このような問題を解決するには報酬モデルの敵対的ロバストネスを向上させる必要がある[65]。より一般的に、他のAIシステムを評価するために使用されるあらゆるAIシステムは、敵対的攻撃に対する耐性を備えていなければならないと言える。監視ツールもより高い報酬を得るために改ざんされる可能性があるため、同様のことが当てはまる[66]

モニタリング

不確実性の推定

特に医療診断などの重要な場面では、人間のオペレーターがAIシステムをどの程度信頼すべきか判断することが重要になる[67]。MLモデルは一般的に確率を出力することで結果の信頼度を示すが、信頼度を過剰に高く見積もることが多く[68]、特に訓練で想定されたのとは異なる状況においてその傾向が高い[69]。較正研究は、モデルが示す確率を真の割合にできるだけ近づけることを目的としている。

同様に、異常検知、つまり分布外検知(OOD)は、AIシステムが異常な状況にある場合にそれを特定することを目的としている。例えば、自動運転の車のセンサーに不具合が生じた場合や、自動制御が困難な地形に遭遇した場合、ドライバーに制御を引き継ぐか、路肩に停車するよう警告する必要がある[70]。異常検知は、異常な入力と異常でない入力を区別するように訓練した分類器として実装された例があり[71]、その他にもさまざまな技術が使用されている[72][73]

悪意のある使用の検出

学者[10]や政府機関は、AIシステムが悪意のある行為者による兵器の製造[74]や世論操作[75][76]サイバー攻撃の自動化などに利用される可能性があると懸念を表明している[77]。特に、強力なAIツールをオンラインでホストするOpenAIのような企業にとっては現実的かつ重大な懸念事項である[78]。悪用を防ぐために、OpenAIはユーザーの活動に基づいて警告を行ったり、制限したりする検出システムを構築した[79]

透明性

AIの透明性とは、AIの意思決定プロセスの仕組みや、使用されているデータを理解することを指す[80]

透明性がない、つまりブラックボックスであると説明されてきた例としてニューラルネットワークが挙げられる[81]。なぜなら、計算の数が膨大であり、計算過程や根拠がないため、なぜそのような決定がくだされるのか理解することは簡単ではないからである[82]。そのため、バグや不具合、故障を予測することは困難である。2018年、自動運転車が歩行者を認識できなかったために死亡事故が起きた。しかし、前述のようにAIソフトウェアはブラックボックスであるため、故障の原因は依然として不明である[83]。また、医療分野では、統計的効率は高いが不透明なモデルを使用すべきかどうかという議論が起こっている[84]

透明性の重要な利点は2つあり、1つは説明可能性である[85]。たとえば求人応募の自動フィルタリングや信用スコアの割り当てなど、決定が下された理由を説明することができる。また、このような説明は公平性を保つため法的に義務付けられている場合もある[85]

もう一つの利点は、失敗の原因を明らかにできることである[81]。2020年の新型コロナウイルスによるパンデミックの初期に、研究者は透明性ツールを使用して、医療画像分類器が無関係な病院のラベルに「注意を払っている」ことを示した[86]

また、透明性技術はエラーの修正にも活用できる。例えば、Locating and Editing Factual Associations in GPT (GPTにおける事実的関連性の位置決めと編集[注 2]) という論文では、著者らはエッフェル塔の所在地に関する質問への回答に影響を与えるモデルパラメータを特定した。そして、この知識を「編集」することで、モデルが質問に対して、塔がフランスではなくローマにあると認識しているかのように回答させることに成功した[88]。このケースでは著者らはエラーを誘発したが、これらの手法はエラーを効率的に修正するために使用できる可能性がある。モデル編集技術はコンピュータービジョンにも存在する[89]

AIシステムの不透明性は大きなリスク源であり、その機能をより深く理解することで、将来的に重大な障害を防ぐことができると主張する者もいる[90]。「内部」解釈可能性研究は、機械学習モデルの不透明性を低減することを目的としている。この研究の目標の一つは、内部ニューロンの活性化が何を表しているかを特定することである[91][92]。例えば、研究者らは、スパイダーマンのコスチュームを着た人々の画像、スパイダーマンのスケッチ、および「スパイダー」という単語に反応するCLIP[注 3]のニューロンを特定した[94]。また、これらのニューロン(回路)間の接続を説明することも含まれる[95][96]。たとえば、2022年、言語モデルがコンテキストから学習する方法に影響を与える可能性のある、Transformerアテンション機構のパターンマッチングメカニズムが特定された[97]。また、「内部解釈可能性」は神経科学と比較されることもあった。どちらの場合も、複雑なシステムで何が起こっているかを理解することが目標だが、機械学習研究者には完璧な測定と任意にアブレーション分析[注 4]を行うことができるという利点がある[99]

トロイの木馬の検出

機械学習モデルには、トロイの木馬バックドアが潜んでいる可能性がある。これは、AIシステムに悪意を持って組み込まれる脆弱性である。例えば、トロイの木馬が仕込まれた顔認識システムは、特定の宝石が視界に入っただけでアクセスを許可する可能性がある[41]。また、トロイの木馬が仕掛けられた自動運転車は、特定のトリガーが検知されると異常動作する可能性がある[100]。トロイの木馬を植え付けるには、攻撃者がシステムのトレーニングデータにアクセスできる必要がある[要出典]。CLIPやGPT-3などの一部の大規模モデルは、web上のインターネットデータでトレーニングされているため、これにアクセスするのはそう難しくない[101]。ある研究者グループは、300万枚のトレーニング画像のうちわずか300枚を変更するだけで、画像分類装置にトロイの木馬を埋め込むことに成功した[102]。一部の研究者らは、トロイの木馬はセキュリティリスクをもたらす一方、より優れた監視ツールのテストおよび開発をするための具体的な環境を提供してくれると主張している[66]

2024年にAnthropicが発表した研究論文では、大規模言語モデルへの学習を通じて永続的なバックドアを植え付けられることが示された。これらのスリーパーエージェントモデルは、特定の日付までは正常に動作し、特定の日付以降に悪意のある出力(脆弱なコードなど)を生成するようにプログラムすることができる。教師あり学習強化学習、敵対的学習といった標準的なAI安全対策では、これらのバックドアを除去することはできなかった[103]

AIアライメント

人工知能(AI)において、AIアライメント: AI alignment)は、AIシステムを人間の意図する目的や嗜好、または倫理原則に合致させることを目的とする研究領域である。意図した目標を達成するAIシステムは、整合したAIシステム(aligned AI system)とみなされる。一方、整合しない、あるいは整合を欠いたAIシステム(misaligned AI system)は、目標の一部を適切に達成する能力はあっても、残りの目標を達成することができない[104]

AI設計者にとってAIシステムを整合するのは困難であり、その理由は、望ましい動作と望ましくない動作を全域にわたって明示することが難しいことによる。この困難を避けるため、設計者は通常、人間の承認を得るなどのより単純な代理目的英語版を用いる。しかし、この手法は抜け穴を作ったり、必要な制約を見落としたり、AIシステムが単に整合しているように見えるだけで報酬を与えたりする可能性がある[104]

整合を欠いたAIシステムは、誤作動を起こしたり、人に危害を加えたりする可能性がある。AIシステムは、代理目的を効率的に達成するための抜け穴を見つけるかもしれないし、意図しない、ときには有害な方法(報酬ハッキング英語版)で達成することもある[104][105][106]。このような戦略は与えられた目的の達成に役立つため、AIシステムは能力や生存を追求するような、望ましくない手段的収束(最終的な目的とは異なる、それを実現するための手段)を発達させる可能性もある[104][107][108]。さらに、システムが導入された後、新たな状況やデータの分布英語版に直面したとき、望ましくない創発的目的を開発する可能性もある[109][110]

今日、こうした問題は、言語モデル[111][112][113]ロボット[114]自律走行車[115]ソーシャルメディア推薦システムなど[116]、既存の商用システムに影響を及ぼしている。AI研究者の中には、こうした問題はシステムが部分的に高性能化することに起因しているため、より高性能な将来のシステムではより深刻な影響を受けるだろうと主張する者もいる[117][118]

ジェフリー・ヒントンスチュアート・ラッセルなどの一流のコンピューター科学者は、AIは超人的な能力に近づいており、もし整合を欠けば人類の文明を危険にさらしかねないと主張している[119][108]

AI研究コミュニティや国連は、AIシステムを人間の価値観に沿ったものとするために、技術的研究と政策的解決策を呼びかけている[120]

AIアライメントは、安全なAIシステムを構築する方法を研究するAI安全性英語版の下位分野である[121]。そこには、ロバスト性(堅牢性)、監視、AI能力制御英語版などの研究領域もある[122]。アライメントに関する研究課題には、AIに複雑な価値観を教え込むこと、正直なAIの開発、スケーラブルな監視、AIモデルの監査と解釈、能力追求のようなAIの創発的行動の防止などが含まれる。アライメントに関連する研究テーマには、解釈可能性[123][124]、(敵対的)ロバスト性、異常検知不確実性定量化英語版[123]形式的検証[125][126][127][128]安全重視工学英語版[129]ゲーム理論[130]アルゴリズム公平性[131]、および社会科学[132]などがある。

システムの安全性と社会技術的要因

AIのリスク (およびより一般的には技術リスク) は、一般に誤用または事故として分類される[133]。しかし、一部の学者は、この枠組みでは不十分だと指摘している[133]。たとえば、キューバ危機は明らかに事故や技術の誤用によるものではなかった[133]。政策アナリストのレムコ・ズウェッツルートとアラン・ダフォーは、「誤用や事故という観点は、被害に至る因果関係の連鎖の最終段階、つまり技術を誤用した人物や意図しない動作をしたシステムにのみ焦点を当てる傾向がある。しかし、多くの場合、関連する因果関係の連鎖ははるかに長い」と述べている。リスクは、競争圧力、被害の拡散、急速な発展、高い不確実性、不十分な安全文化といった「構造的」または「体系的」な要因から生じることが多い[133]。安全工学のより広い文脈では、「組織の安全文化」などの構造的要因が、一般的なSTAMPリスク管理で中心的な役割を果たす[134]

一部の研究者は構造的視点に触発され、サイバー防御、組織的な意思決定の改善、協力の促進などのために機械学習を使用することで、より広い社会工学的な安全要因を改善する重要性を強調している[41]。構造上の脆弱性に対処するために、設計プロセスにAI実践者とドメイン専門家の両方を関与させることの重要性を強調する人もいる[135]

サイバー防御

一部の学者は、AIによって、サイバー攻撃技術と防御技術の不均衡がさらに悪化するのではないかと懸念している[136]。これは「先制攻撃」のインセンティブを高め、より攻撃的で不安定化をもたらすサイバー攻撃につながる可能性がある。そのため、このリスクを軽減するために、一部の学者はサイバー防御の強化を主張している。さらに、強力なAIモデルの盗難や悪用を防ぐためには、ソフトウェアセキュリティの向上が不可欠である[10]。最近の研究では、AIは日常的なタスクを自動化し、全体的な効率を向上させることで、技術的および管理的なサイバーセキュリティタスクの両方を大幅に強化できることが示されている[137]

組織の意思決定の改善

経済および軍事分野におけるAIの進歩は、前例のない政治的課題を引き起こす可能性がある[138]。研究者の中には、破滅的な事態を回避する手段が少数の意思決定者の判断に委ねられていた冷戦時代を例に挙げて、AI時代において組織的な意思決定プロセスを改善することの重要性を強調する者がいる[139]。AI研究者は、AI技術は意思決定を助けるためにも使用できると主張している[41]。例えば、研究者たちはAIによる予測システム[140]や助言システムの開発を始めている[141]

協力の促進

地球規模の最大の脅威(核戦争[142]、気候変動[143]など)の多くは、国際協調にとっての課題として捉えられてきた。それは、よく知られている囚人のジレンマのシナリオのように、たとえすべてのプレイヤーが自己利益のために最適に行動していたとしても、それはすべての人にとって悪い結果をもたらす可能性がある[143]ためである。

AI協力における顕著な課題のひとつは、「底辺への競争」がおこるシナリオを回避することである[144]。このシナリオでは、各国や企業がより高性能なAIシステムの構築に競い合い、安全性を軽視することで、関係者全員に損害を与える壊滅的な事故が引き起こされる。このような懸念から、人間同士、そして将来的にはAIシステム間の協力を促進するための、政治的[145]および技術的[146]な取り組みが活発化している。 ほとんどのAI研究は、独立した機能を(多くの場合、「シングルプレイヤー」ゲーム環境において)提供する個々のエージェントの設計に重点を置いている[147]。しかし学者たちは、AIシステムがより自律的になるにつれて、それらの相互作用の仕方を研究し、形づくることが重要になるかもしれないと示唆している[147][135]

大規模言語モデルの課題

近年、大規模言語モデル(LLM)の開発は、AIセーフティの分野において特有の懸念を引き起こしている[148]。ベンダーとゲブルらの研究グループは、これらのモデルの学習に伴う環境および財務コストに注目し、Transformerモデルのような学習手順におけるエネルギー消費量と二酸化炭素排出量が相当に大きくなる可能性があることを強調している。さらに、これらのモデルは、しばしば大規模でキュレーションされていないインターネットベースのデータセットに依存しており、覇権的で偏った視点が組み込まれ、発言力が低いマイノリティ集団をさらに疎外する可能性があるとしている。大規模な学習データは膨大であっても多様性を保証するものではなく、特権階級の世界観を反映していることが多く、既存の偏見やステレオタイプを永続させるモデルにつながる。この状況は、これらのモデルが一見首尾一貫していて流暢なテキストを生成できることでさらに悪化し、実際には意味や意図がないのにユーザーを誤解させ、意味や意図を推測させる可能性がある。この現象は確率的オウムという。したがって、これらのモデルは、社会的偏見を増幅させ、誤情報を拡散させ、過激なプロパガンダディープフェイクの作成といった悪意のある目的に利用されるリスクをはらんでいる。これらの問題に対処するため、研究者たちはデータセットの作成とシステム開発においてより慎重な計画を提唱し、公平な技術的エコシステムの実現にプラスの影響を与える研究プロジェクトの必要性を強調している[149][150]

LLM特有の課題は、セキュリティ上の脆弱性にも及んでいる。これには、プロンプトインジェクション、誤情報生成、モデル窃取[151]などが含まれ、これらは悪用されてLLMの本来の機能を侵害する可能性がある。これにより、攻撃者は安全対策を回避し、想定されていない応答を引き出すことが可能になる。

AIガバナンス

2023年11月に開催された第1回AI安全性サミット[152]

AIガバナンスとは、AIの開発と応用に関して適切な倫理的・法的・社会的基準を設け、リスクを抑制するための監督・管理の枠組みであり[153]、AIシステムの使用と開発を導くための規範、標準、規制の作成に広く関係している[154]

研究

AIガバナンスに関する研究は、AIの潜在的な影響に関する基礎的な調査から具体的な応用まで多岐にわたる。基礎的な側面では、研究者たちはAIを電気や蒸気機関に例え、その幅広い応用範囲によって社会の多くの側面を変革できると主張している[155]。いくつかの研究では、これらの影響から生じる可能性のある特定のリスクを予測することに焦点が当てられている。たとえば、大量失業[156]、兵器化[157]、偽情報の拡散[158]、AIによる監視によるプライバシーの侵害や不正監視[159]、権力の集中などの問題である[160]。その他の研究では、急速に進化するAI業界の監視の難しさ[161]、AIモデルの可用性[162]および底辺への競争への動向など根本的なリスク要因を調査している[144]Google DeepMindの長期ガバナンスおよび戦略責任者であるアラン・ダフォーは、競争の危険性と協力の必要性を強調し、「高度で強力なシステムを導入する前に高度な注意を払うことは、AIの安全性とアライメントにとってほぼ必要かつ十分な条件だろう。しかし、先行者や相対的優位者への利益が大きい分野で関係者が競争している場合、最適ではないレベルの注意を選択するよう圧力がかかるだろう」と述べている[145]。AI の説明責任を評価するためのアプローチ、フレームワーク、および方法の開発に重点を置いた研究ストリームがAI ベースのシステムの監査を主導・促進している[163][164][165]。こうしたアプローチの主な課題は、広く受け入れられている標準が欠如していることと、その方法に何が必要かが曖昧であることである[166][167]

AIの安全性を高めるための取り組みには、AIの出力を倫理的ガイドラインに準拠させ、不適切な利用やデータ漏洩などのリスクを軽減するように設計されたフレームワークが含まれる。Nvidia社のGuardrails[168]Llama社のLlama Guard[169]Anthropic社のClaude’s Constitutionといったツールは、プロンプトインジェクションなどの脆弱性を軽減し、出力が事前に定義された原則に準拠していることを保証している。これらのフレームワークは、安全性と信頼性を向上させるためにAIシステムに統合されることがよくある[170]

哲学的視点

AIセーフティという学術分野は、特に倫理の領域において、哲学的な考察と深く絡み合っている。道徳的規則の遵守を重視する義務論的倫理は、AIシステムを人間の価値観と整合させるための枠組みとして提唱されている。義務論的原則をAIシステムに組み込むことで、AIシステムが害を及ぼす行動を回避し、その動作が倫理的境界内にとどまるように導くことができる[171]

ローカルな対策からグローバルなソリューションへの拡大

AIの安全性問題に取り組む際には、ローカルソリューションとグローバルソリューションの区別を明確にすることが重要である。ローカルソリューションは個々のAIシステムの安全性と有用性を確保することに焦点を当て、グローバルソリューションは様々な管轄区域にまたがるすべてのAIシステムに対して安全対策を実施することを目指している。一部の研究者[172]は、ローカルな安全対策をグローバル規模に拡大する必要性を主張し、こうしたグローバルソリューションの分類を提案している。このようなアプローチは、AIの安全性に関する国際的なガバナンスにおける協調的な取り組みの重要性を強調し、AI技術に関連するリスクを単一の主体が効果的に管理することはできないことを強調している。この視点は、世界中の高度なAIシステムがもたらす複雑な課題に対処することを目指す、国際的な政策立案および規制枠組みにおける継続的な取り組みと一致している[173][174]

政府の行動

一部の専門家は、AIを規制するのは時期尚早だと主張し、規制はイノベーションを阻害し、「無知のまま規制を急ぐ」のは愚かな行為だと懸念を表明している[175][176]。一方、イーロン・マスクなどは、壊滅的なリスクを軽減するために先制的な行動をとるよう呼びかけている[177]

正式な法律制定以外にも、政府機関は倫理および安全性に関する勧告を提示している。2021年3月、米国人工知能国家安全保障委員会は、AIの進歩により「システムが安全性、堅牢性、信頼性を含む目標と価値観に沿っていることを保証すること」がますます重要になる可能性があると報告した[178]。その後、米国国立標準技術研究所はAIリスクを管理するためのフレームワークを起草し、「壊滅的なリスクが存在する場合、リスクが十分に管理されるまで、開発と展開は安全な方法で停止されるべきである」と主張している[179]

中国は2021年9月、中国におけるAI利用に関する倫理ガイドラインを発表し、AIの意思決定は人間の管理下に置かれるべきであることを強調し、説明責任のメカニズムの構築を求めた。同月、英国は国家AI戦略[注 5]を発表し[182] 、英国政府は「アライメント不十分な汎用人工知能の長期的なリスク、そしてそれが世界にもたらす予期せぬ変化を真剣に受け止めている」と述べた[183]。この戦略では、壊滅的なリスクを含む長期的な AI リスクを評価するための方策について説明している[183]。英国政府は、AIの安全性に関する初の主要な国際サミットを開催した。このサミットは2023年11月1日と2日に開催され、「政策立案者と世界の指導者がAIの差し迫ったリスクと将来のリスク、そして世界的に協調されたアプローチを通じてこれらのリスクをどのように軽減できるかを検討する機会」と位置付けられた[184][185]

米国をはじめとする各国の政府機関はAIの安全性に関する技術的な研究の発展を奨励している。Intelligence Advanced Research Projects Activity英語版は、AIシステムに対するトロイの木馬攻撃を特定し、防御するためのTrojAIプロジェクトを開始した[186]DARPAは、説明可能なAIと敵対的攻撃に対する堅牢性の向上に関する研究に取り組んでいる[187][188]。また、アメリカ国立科学財団は信頼できる機械学習センターを支援しており、実証的な AI 安全性研究に数百万ドルの資金を提供している[189]

2024年、国連総会はAIの設計、開発、展開、利用における人権の尊重、保護、促進を強調した「安全で安心、信頼できる」AIシステムの推進に関する初の世界決議を採択した[190]

2024年5月、英国科学・イノベーション・技術省英語版(DSIT)は、AI安全研究所のクリストファー・サマーフィールドとシャハール・アビンが主導し、英国研究・イノベーション機構英語版(UKR)と提携した「体系的AI安全ファストグラントプログラム」に基づき、AI安全研究に850万ポンドの資金提供を発表した。ミシェル・ドネラン技術長官はAIソウルサミットでこの計画を発表し、社会全体でAIを安全にすることを目標としており、有望な申請には追加資金を提供できると述べた。英国はまた、協力を促進し、情報とリソースを共有するため、10カ国およびEUとAI安全研究機関の国際ネットワークを形成する協定に署名した。さらに、英国AI安全研究所はサンフランシスコにオフィスを開設する予定である[191]

企業の自主規制

AIラボや企業は、一般的に、正式な法律で定められていない安全対策や規範を遵守しなければならない[192]。ガバナンス研究者の目的の一つは、こうした規範を策定することである。文献に記載されている安全に関する推奨事項の例としては、第三者による監査の実施[193]、欠陥発見に対する報奨金の提供[193]、AIインシデントの共有[193](この目的のためにAIインシデントデータベースが作成された)[194]、研究やモデルの公開を判断するためのガイドラインの遵守[162]、AIラボにおける情報セキュリティとサイバーセキュリティの向上などが挙げられる[195]

企業もコミットメントを示した。Cohere英語版OpenAIAI21 Labs英語版は、不適切な利用を軽減することに焦点を当てた「言語モデル導入におけるベストプラクティス」を提示し、合意した[196]。構造的な開発競争の枠組みから脱却するため、OpenAIは憲章の中で「もし、価値観が一致し、安全性を重視したプロジェクトが私たちより先にAGIの構築に近づいた場合、私たちはそのプロジェクトとの競争をやめ、支援を開始することを約束する」とした[197]。また、Google DeepMindのCEOデミス・ハサビス氏やFacebookのAIディレクターであるヤン・ルカン氏などの業界のリーダーたちも、「アシロマ AI 23原則」[198] や「the Autonomous Weapons Open Letter」[199]などの公開書簡に署名している[200]

脚注

注釈

  1. ^ 日本語のタイトルは論文「人工知能やロボットの社会的影響に関する先行的研究動向」[32]による。「堅牢で有益な人工知能のための研究の優先順位」と訳されることもある。
  2. ^ 日本語のタイトルは科学技術振興機構のホームページ[87]に掲載されたJST・京大機械翻訳による。
  3. ^ CLIPは2021年2月にOpenAIによって公開された言語と画像のマルチモーダルモデルである[93]
  4. ^ アブレーション分析(Ablation Study)とは、システムやモデルの構成要素の重要性を評価するため、それらの要素を取り除いて影響を観察する手法である[98]
  5. ^ 国家AI戦略の大まかな内容は科学技術振興機構のホームページ[180]や内閣府ホームページ[181]から見られる。

出典

  1. ^ AIセーフティ・インスティテュート独立行政法人情報処理推進機構 (2024年9月18日). “AIセーフティに関する評価観点ガイドを公開” (HTML). IPA 独立行政法人 情報処理推進機構. 独立行政法人情報処理推進機構. 2025年8月12日閲覧。
  2. ^ a b c 内閣府科学技術・イノベーション推進事務局 (2024年2月14日). “AIセーフティ・インスティテュートの設立について”. 内閣府ホームページ. 内閣府. 2024年4月15日時点のオリジナルよりアーカイブ。2024年8月31日閲覧。
  3. ^ Amanda McGrath, Alexandra Jonker (2024年11月15日). “AIの安全性とは”. IBM - 日本. 日本アイ・ビー・エム株式会社 / International Business Machines Corporation. 2025年8月12日閲覧。
  4. ^ a b AISI Japan - AI Safety Institute”. aisi.go.jp (2023年3月28日). 2024年8月31日閲覧。
  5. ^ Perrigo, Billy (2 November 2023). “U.K.'s AI Safety Summit Ends With Limited, but Meaningful, Progress”. Time (英語). 2024年6月2日閲覧.
  6. ^ De-Arteaga, Maria (13 May 2020). Machine Learning in High-Stakes Settings: Risks and Opportunities (PhD). Carnegie Mellon University.
  7. ^ Mehrabi, Ninareh; Morstatter, Fred; Saxena, Nripsuta; Lerman, Kristina; Galstyan, Aram (2021). “A Survey on Bias and Fairness in Machine Learning” (英語). ACM Computing Surveys 54 (6): 1–35. arXiv:1908.09635. doi:10.1145/3457607. ISSN 0360-0300. https://dl.acm.org/doi/10.1145/3457607 2022年11月28日閲覧。. 
  8. ^ Feldstein, Steven (2019). The Global Expansion of AI Surveillance (Report). Carnegie Endowment for International Peace.
  9. ^ Barnes, Beth (2021). “Risks from AI persuasion”. Lesswrong. https://www.lesswrong.com/posts/5cWtwATHL6KyzChck/risks-from-ai-persuasion 2022年11月23日閲覧。. 
  10. ^ a b c Brundage, Miles; Avin, Shahar; Clark, Jack; Toner, Helen; Eckersley, Peter; Garfinkel, Ben; Dafoe, Allan; Scharre, Paul et al. (2018-04-30). The Malicious Use of Artificial Intelligence: Forecasting, Prevention, and Mitigation. Apollo - University of Cambridge Repository. doi:10.17863/cam.22520. https://www.repository.cam.ac.uk/handle/1810/275332 2022年11月28日閲覧。. 
  11. ^ Davies (2022年12月26日). “How NATO is preparing for a new era of AI cyber attacks” (英語). euronews. 2024年3月23日閲覧。
  12. ^ Ahuja (2024年2月7日). “AI's bioterrorism potential should not be ruled out”. Financial Times. 2024年3月23日閲覧。
  13. ^ Carlsmith, Joseph (2022-06-16). Is Power-Seeking AI an Existential Risk?. arXiv:2206.13353. 
  14. ^ Minardi (2020年10月16日). “The grim fate that could be 'worse than extinction'”. BBC. 2024年3月23日閲覧。
  15. ^ AGI Expert Peter Voss Says AI Alignment Problem is Bogus | NextBigFuture.com” (2023年4月4日). 2023年7月23日閲覧。
  16. ^ Dafoe, Allan (2016年). “Yes, We Are Worried About the Existential Risk of Artificial Intelligence”. MIT Technology Review. 2022年11月28日時点のオリジナルよりアーカイブ。2022年11月28日閲覧。
  17. ^ a b Grace, Katja; Salvatier, John; Dafoe, Allan; Zhang, Baobao; Evans, Owain (2018-07-31). “Viewpoint: When Will AI Exceed Human Performance? Evidence from AI Experts”. Journal of Artificial Intelligence Research 62: 729–754. arXiv:1705.08807. doi:10.1613/jair.1.11222. ISSN 1076-9757. オリジナルの2023-02-10時点におけるアーカイブ。. https://web.archive.org/web/20230210114220/https://jair.org/index.php/jair/article/view/11222 2022年11月28日閲覧。. 
  18. ^ Zhang, Baobao; Anderljung, Markus; Kahn, Lauren; Dreksler, Noemi; Horowitz, Michael C.; Dafoe, Allan (2021-05-05). “Ethics and Governance of Artificial Intelligence: Evidence from a Survey of Machine Learning Researchers”. Journal of Artificial Intelligence Research 71. arXiv:2105.02117. doi:10.1613/jair.1.12895. 
  19. ^ 2022 Expert Survey on Progress in AI”. AI Impacts (2022年8月4日). 2022年11月23日時点のオリジナルよりアーカイブ。2022年11月23日閲覧。
  20. ^ Michael, Julian; Holtzman, Ari; Parrish, Alicia; Mueller, Aaron; Wang, Alex; Chen, Angelica; Madaan, Divyam; Nangia, Nikita et al. (2022-08-26). “What Do NLP Researchers Believe? Results of the NLP Community Metasurvey”. Association for Computational Linguistics. arXiv:2208.12852. 
  21. ^ Markoff, John (2013年5月20日). “In 1949, He Imagined an Age of Robots”. The New York Times. ISSN 0362-4331. オリジナルの2022年11月23日時点におけるアーカイブ。. https://web.archive.org/web/20221123061554/https://www.nytimes.com/2013/05/21/science/mit-scholars-1949-essay-on-machine-age-is-found.html 2022年11月23日閲覧。 
  22. ^ Artificial intelligence: A handbook of professionalism. University of Sussex. (January 1988). ISBN 978-0-470-21103-8. https://sussex.figshare.com/articles/book/Artificial_intelligence_a_handbook_of_professionalism/23312414 
  23. ^ Association for the Advancement of Artificial Intelligence. “AAAI Presidential Panel on Long-Term AI Futures”. 2022年9月1日時点のオリジナルよりアーカイブ。2022年11月23日閲覧。
  24. ^ Yampolskiy, Roman V.; Spellchecker, M. S. (2016-10-25). Artificial Intelligence Safety and Cybersecurity: a Timeline of AI Failures. arXiv:1610.07997. 
  25. ^ PT-AI 2011 – Philosophy and Theory of Artificial Intelligence (PT-AI 2011)”. 2022年11月23日時点のオリジナルよりアーカイブ。2022年11月23日閲覧。
  26. ^ Yampolskiy, Roman V. (2013), Müller, Vincent C., ed., “Artificial Intelligence Safety Engineering: Why Machine Ethics is a Wrong Approach”, Philosophy and Theory of Artificial Intelligence, Studies in Applied Philosophy, Epistemology and Rational Ethics (Berlin; Heidelberg, Germany: Springer Berlin Heidelberg) 5: 389–396, doi:10.1007/978-3-642-31674-6_29, ISBN 978-3-642-31673-9, オリジナルの2023-03-15時点におけるアーカイブ。, https://web.archive.org/web/20230315184334/https://link.springer.com/chapter/10.1007/978-3-642-31674-6_29 2022年11月23日閲覧。 
  27. ^ McLean, Scott; Read, Gemma J. M.; Thompson, Jason; Baber, Chris; Stanton, Neville A.; Salmon, Paul M. (2023-07-04). “The risks associated with Artificial General Intelligence: A systematic review” (英語). Journal of Experimental & Theoretical Artificial Intelligence 35 (5): 649–663. Bibcode2023JETAI..35..649M. doi:10.1080/0952813X.2021.1964003. hdl:11343/289595. ISSN 0952-813X. 
  28. ^ Wile (2014年8月3日). “Elon Musk: Artificial Intelligence Is 'Potentially More Dangerous Than Nukes'” (英語). Business Insider. 2024年2月22日閲覧。
  29. ^ Kuo, Kaiser (31 March 2015). Baidu CEO Robin Li interviews Bill Gates and Elon Musk at the Boao Forum, March 29, 2015. 該当時間: 55:49. 2022年11月23日時点のオリジナルよりアーカイブ. 2022年11月23日閲覧.
  30. ^ Cellan-Jones, Rory (2014年12月2日). “Stephen Hawking warns artificial intelligence could end mankind”. BBC News. オリジナルの2015年10月30日時点におけるアーカイブ。. https://web.archive.org/web/20151030054329/http://www.bbc.com/news/technology-30290540 2022年11月23日閲覧。 
  31. ^ Sparkes, Matthew (2015年1月13日). “Top scientists call for caution over artificial intelligence”. The Telegraph (UK). https://www.telegraph.co.uk/technology/news/11342200/Top-scientists-call-for-caution-over-artificial-intelligence.html 2015年4月24日閲覧。 
  32. ^ 人工知能やロボットの社会的影響に関する先行的研究動向”. 2025年8月3日閲覧。
  33. ^ Future of Life Institute. “Research Priorities for Robust and Beneficial Artificial Intelligence: An Open Letter”. Future of Life Institute. 2022年11月23日時点のオリジナルよりアーカイブ。2022年11月23日閲覧。
  34. ^ Future of Life Institute (2016年10月). “AI Research Grants Program”. Future of Life Institute. 2022年11月23日時点のオリジナルよりアーカイブ。2022年11月23日閲覧。
  35. ^ SafArtInt 2016”. 2022年11月23日時点のオリジナルよりアーカイブ。2022年11月23日閲覧。
  36. ^ Bach (2016年). “UW to host first of four White House public workshops on artificial intelligence”. UW News. 2022年11月23日時点のオリジナルよりアーカイブ。2022年11月23日閲覧。
  37. ^ Amodei, Dario; Olah, Chris; Steinhardt, Jacob; Christiano, Paul; Schulman, John; Mané, Dan (2016-07-25). Concrete Problems in AI Safety. arXiv:1606.06565. 
  38. ^ A Principled AI Discussion in Asilomar”. Future of Life Institute (2017年1月18日). 2025年8月2日閲覧。
  39. ^ AI Principles Japanese”. Future of Life Institute (2022年9月29日). 2025年8月2日閲覧。
  40. ^ AI の安全ガイドライン「アシロマ AI 23原則」”. SENSOR. 東京海上研究所. 2025年7月22日閲覧。
  41. ^ a b c d e Hendrycks, Dan; Carlini, Nicholas; Schulman, John; Steinhardt, Jacob (2022-06-16). Unsolved Problems in ML Safety. arXiv:2109.13916. 
  42. ^ Browne (2023年6月12日). “British Prime Minister Rishi Sunak pitches UK as home of A.I. safety regulation as London bids to be next Silicon Valley” (英語). CNBC. 2023年6月25日閲覧。
  43. ^ Bertuzzi, Luca (2023年10月18日). “UK's AI safety summit set to highlight risk of losing human control over 'frontier' models”. Euractiv. https://www.euractiv.com/section/artificial-intelligence/news/uks-ai-safety-summit-set-to-highlight-risk-of-losing-human-control-over-frontier-models/ 2024年3月2日閲覧。 
  44. ^ Bengio (2024年5月17日). “International Scientific Report on the Safety of Advanced AI”. GOV.UK. 2024年6月15日時点のオリジナルよりアーカイブ。2024年7月8日閲覧。 Alt URL
  45. ^ Shepardson, David (2024年4月1日). “US, Britain announce partnership on AI safety, testing”. https://www.reuters.com/technology/us-britain-announce-formal-partnership-artificial-intelligence-safety-2024-04-01/ 2024年4月2日閲覧。 
  46. ^ “What International AI Safety report says on jobs, climate, cyberwar and more” (英語). The Guardian. (2025年1月29日). ISSN 0261-3077. https://www.theguardian.com/technology/2025/jan/29/what-international-ai-safety-report-says-jobs-climate-cyberwar-deepfakes-extinction 2025年3月3日閲覧。 
  47. ^ Launch of the First International Report on AI Safety chaired by Yoshua Bengio” (英語). mila.quebec (2025年1月29日). 2025年3月3日閲覧。
  48. ^ 人間中心のAI社会原則”. 2025年8月2日閲覧。
  49. ^ 世界初のAI包括的ルール「広島AIプロセス」関連文書の解説”. PwC (2023年12月22日). 2025年8月2日閲覧。
  50. ^ 広島AIプロセスに関するG7首脳声明(2023年10月30日)”. 2025年8月2日閲覧。
  51. ^ AI事業者ガイドラインとは?策定の背景・対象者・内容・チェックリストなどを分かりやすく解説!”. すすむ・はかどる、契約学習「契約ウォッチ」 (2024年5月30日). 2025年8月2日閲覧。
  52. ^ AI事業者ガイドライン(METI/経済産業省)”. 経済産業省のWEBサイト (METI/経済産業省). 2025年8月2日閲覧。
  53. ^ AIセーフティに関する評価観点ガイド”. 2025年8月2日閲覧。
  54. ^ AIセーフティ・アプローチブック(AIセーフティの普及に向けた文書)”. AISI Japan. 2025年8月2日閲覧。
  55. ^ GPAI東京専門家支援センター”. www2.nict.go.jp. 2025年8月2日閲覧。
  56. ^ 「行政の進化と革新のための生成AIの調達・利活用に係るガイドライン」を策定しました|デジタル庁”. デジタル庁 (2025年5月27日). 2025年8月4日閲覧。
  57. ^ 全府省に“AI統括責任者(CAIO)”新設――デジタル庁、生成AIガイドラインで生成AI導入の基準を明文化”. Ledge.ai (2024年4月26日). 2025年8月4日閲覧。
  58. ^ AI政策動向マンスリー情報”. AISI Japan (2025年5月28日). 2025年8月2日閲覧。
  59. ^ e-Gov 法令検索”. e-Gov 法令検索. 2025年8月2日閲覧。
  60. ^ Research (2018年9月27日). “Building safe artificial intelligence: specification, robustness, and assurance”. Medium. 2023年2月10日時点のオリジナルよりアーカイブ。2022年11月23日閲覧。
  61. ^ Goodfellow (2017年2月24日). “Attacking Machine Learning with Adversarial Examples”. OpenAI. 2022年11月24日時点のオリジナルよりアーカイブ。2022年11月24日閲覧。
  62. ^ Szegedy, Christian; Zaremba, Wojciech; Sutskever, Ilya; Bruna, Joan; Erhan, Dumitru; Goodfellow, Ian; Fergus, Rob (2014-02-19). “Intriguing properties of neural networks”. ICLR. arXiv:1312.6199. 
  63. ^ Ouyang, Long; Wu, Jeff; Jiang, Xu; Almeida, Diogo; Wainwright, Carroll L.; Mishkin, Pamela; Zhang, Chong; Agarwal, Sandhini et al. (2022-03-04). “Training language models to follow instructions with human feedback”. NeurIPS. arXiv:2203.02155. 
  64. ^ Gao, Leo; Schulman, John; Hilton, Jacob (2022-10-19). “Scaling Laws for Reward Model Overoptimization”. ICML. arXiv:2210.10760. 
  65. ^ Yu, Sihyun; Ahn, Sungsoo; Song, Le; Shin, Jinwoo (2021-10-27). “RoMA: Robust Model Adaptation for Offline Model-based Optimization”. NeurIPS. arXiv:2110.14188. 
  66. ^ a b Hendrycks, Dan; Mazeika, Mantas (2022-09-20). X-Risk Analysis for AI Research. arXiv:2206.05862. 
  67. ^ Tran, Khoa A.; Kondrashova, Olga; Bradley, Andrew; Williams, Elizabeth D.; Pearson, John V.; Waddell, Nicola (2021). “Deep learning in cancer diagnosis, prognosis and treatment selection” (英語). Genome Medicine 13 (1): 152. doi:10.1186/s13073-021-00968-x. ISSN 1756-994X. PMC 8477474. PMID 34579788. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC8477474/. 
  68. ^ Guo, Chuan; Pleiss, Geoff; Sun, Yu; Weinberger, Kilian Q. (6 August 2017). “On calibration of modern neural networks”. Proceedings of the 34th international conference on machine learning. Proceedings of machine learning research. Vol. 70. PMLR. pp. 1321–1330.
  69. ^ Ovadia, Yaniv; Fertig, Emily; Ren, Jie; Nado, Zachary; Sculley, D.; Nowozin, Sebastian; Dillon, Joshua V.; Lakshminarayanan, Balaji et al. (2019-12-17). “Can You Trust Your Model's Uncertainty? Evaluating Predictive Uncertainty Under Dataset Shift”. NeurIPS. arXiv:1906.02530. 
  70. ^ Bogdoll, Daniel; Breitenstein, Jasmin; Heidecker, Florian; Bieshaar, Maarten; Sick, Bernhard; Fingscheidt, Tim; Zöllner, J. Marius (2021). “Description of Corner Cases in Automated Driving: Goals and Challenges”. 2021 IEEE/CVF International Conference on Computer Vision Workshops (ICCVW). pp. 1023–1028. arXiv:2109.09607. doi:10.1109/ICCVW54120.2021.00119. ISBN 978-1-6654-0191-3 
  71. ^ Hendrycks, Dan; Mazeika, Mantas; Dietterich, Thomas (2019-01-28). “Deep Anomaly Detection with Outlier Exposure”. ICLR. arXiv:1812.04606. 
  72. ^ Wang, Haoqi; Li, Zhizhong; Feng, Litong; Zhang, Wayne (2022-03-21). “ViM: Out-Of-Distribution with Virtual-logit Matching”. CVPR. arXiv:2203.10807. 
  73. ^ Hendrycks, Dan; Gimpel, Kevin (2018-10-03). “A Baseline for Detecting Misclassified and Out-of-Distribution Examples in Neural Networks”. ICLR. arXiv:1610.02136. 
  74. ^ Urbina, Fabio; Lentzos, Filippa; Invernizzi, Cédric; Ekins, Sean (2022). “Dual use of artificial-intelligence-powered drug discovery” (英語). Nature Machine Intelligence 4 (3): 189–191. doi:10.1038/s42256-022-00465-9. ISSN 2522-5839. PMC 9544280. PMID 36211133. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC9544280/. 
  75. ^ Center for Security and Emerging Technology; Buchanan, Ben; Lohn, Andrew; Musser, Micah; Sedova, Katerina (2021). Truth, Lies, and Automation: How Language Models Could Change Disinformation. doi:10.51593/2021ca003. https://cset.georgetown.edu/publication/truth-lies-and-automation/ 2022年11月28日閲覧。. 
  76. ^ Propaganda-as-a-service may be on the horizon if large language models are abused”. VentureBeat (2021年12月14日). 2022年11月24日時点のオリジナルよりアーカイブ。2022年11月24日閲覧。
  77. ^ Center for Security and Emerging Technology; Buchanan, Ben; Bansemer, John; Cary, Dakota; Lucas, Jack; Musser, Micah (2020). Automating Cyber Attacks: Hype and Reality. doi:10.51593/2020ca002. https://cset.georgetown.edu/publication/automating-cyber-attacks/ 2022年11月28日閲覧。. 
  78. ^ Lessons Learned on Language Model Safety and Misuse”. OpenAI (2022年3月3日). 2022年11月24日時点のオリジナルよりアーカイブ。2022年11月24日閲覧。
  79. ^ Markov (2022年8月10日). “New-and-Improved Content Moderation Tooling”. OpenAI. 2023年1月11日時点のオリジナルよりアーカイブ。2022年11月24日閲覧。
  80. ^ AIの透明性とは?透明性の確保と利用のバランス”. Zendesk (2024年3月16日). 2025年8月1日閲覧。
  81. ^ a b Savage, Neil (2022-03-29). “Breaking into the black box of artificial intelligence”. Nature. doi:10.1038/d41586-022-00858-1. PMID 35352042. https://www.nature.com/articles/d41586-022-00858-1 2022年11月24日閲覧。. 
  82. ^ Center for Security and Emerging Technology; Rudner, Tim; Toner, Helen (2021). “Key Concepts in AI Safety: Interpretability in Machine Learning”. CSET Issue Brief. doi:10.51593/20190042. https://cset.georgetown.edu/publication/key-concepts-in-ai-safety-interpretability-in-machine-learning/ 2022年11月28日閲覧。. 
  83. ^ McFarland (2018年3月19日). “Uber pulls self-driving cars after first fatal crash of autonomous vehicle”. CNNMoney. 2022年11月24日時点のオリジナルよりアーカイブ。2022年11月24日閲覧。
  84. ^ Felder, Ryan Marshall (July 2021). “Coming to Terms with the Black Box Problem: How to Justify AI Systems in Health Care” (英語). Hastings Center Report 51 (4): 38–45. doi:10.1002/hast.1248. ISSN 0093-0334. PMID 33821471. https://onlinelibrary.wiley.com/doi/10.1002/hast.1248. 
  85. ^ a b Doshi-Velez, Finale; Kortz, Mason; Budish, Ryan; Bavitz, Chris; Gershman, Sam; O'Brien, David; Scott, Kate; Schieber, Stuart et al. (2019-12-20). Accountability of AI Under the Law: The Role of Explanation. arXiv:1711.01134. 
  86. ^ Fong, Ruth; Vedaldi, Andrea (2017). “Interpretable Explanations of Black Boxes by Meaningful Perturbation”. 2017 IEEE International Conference on Computer Vision (ICCV). pp. 3449–3457. arXiv:1704.03296. doi:10.1109/ICCV.2017.371. ISBN 978-1-5386-1032-9 
  87. ^ Kevin, Meng、David, Bau、Alex, Andonian、Yonatan, Belinkov「GPTにおける事実的関連性の位置決めと編集【JST・京大機械翻訳】」『arXiv』2022年、2025年8月3日閲覧 
  88. ^ Meng, Kevin; Bau, David; Andonian, Alex; Belinkov, Yonatan (2022). “Locating and editing factual associations in GPT”. Advances in Neural Information Processing Systems 35. arXiv:2202.05262. 
  89. ^ Bau, David; Liu, Steven; Wang, Tongzhou; Zhu, Jun-Yan; Torralba, Antonio (2020-07-30). “Rewriting a Deep Generative Model”. ECCV. arXiv:2007.15646. 
  90. ^ Räuker, Tilman; Ho, Anson; Casper, Stephen; Hadfield-Menell, Dylan (2022-09-05). “Toward Transparent AI: A Survey on Interpreting the Inner Structures of Deep Neural Networks”. IEEE SaTML. arXiv:2207.13243. 
  91. ^ Bau, David; Zhou, Bolei; Khosla, Aditya; Oliva, Aude; Torralba, Antonio (2017-04-19). “Network Dissection: Quantifying Interpretability of Deep Visual Representations”. CVPR. arXiv:1704.05796. 
  92. ^ McGrath, Thomas; Kapishnikov, Andrei; Tomašev, Nenad; Pearce, Adam; Wattenberg, Martin; Hassabis, Demis; Kim, Been; Paquet, Ulrich et al. (2022-11-22). “Acquisition of chess knowledge in AlphaZero” (英語). Proceedings of the National Academy of Sciences 119 (47): e2206625119. arXiv:2111.09259. Bibcode2022PNAS..11906625M. doi:10.1073/pnas.2206625119. ISSN 0027-8424. PMC 9704706. PMID 36375061. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC9704706/. 
  93. ^ Admin, TRAIL (2022年12月1日). “CLIP:言語と画像のマルチモーダル基盤モデル”. TRAIL. 2025年8月2日閲覧。
  94. ^ Goh, Gabriel; Cammarata, Nick; Voss, Chelsea; Carter, Shan; Petrov, Michael; Schubert, Ludwig; Radford, Alec; Olah, Chris (2021). “Multimodal neurons in artificial neural networks”. Distill 6 (3). doi:10.23915/distill.00030. 
  95. ^ Olah, Chris; Cammarata, Nick; Schubert, Ludwig; Goh, Gabriel; Petrov, Michael; Carter, Shan (2020). “Zoom in: An introduction to circuits”. Distill 5 (3). doi:10.23915/distill.00024.001. 
  96. ^ Cammarata, Nick; Goh, Gabriel; Carter, Shan; Voss, Chelsea; Schubert, Ludwig; Olah, Chris (2021). “Curve circuits”. Distill 6 (1). doi:10.23915/distill.00024.006. https://distill.pub/2020/circuits/curve-circuits/ 2022年12月5日閲覧。. 
  97. ^ Olsson, Catherine; Elhage, Nelson; Nanda, Neel; Joseph, Nicholas; DasSarma, Nova; Henighan, Tom; Mann, Ben; Askell, Amanda et al. (2022). “In-context learning and induction heads”. Transformer Circuits Thread. arXiv:2209.11895. 
  98. ^ アブレーション分析(Ablation Study)”. インディ・パ (2025年4月15日). 2025年8月2日閲覧。
  99. ^ Olah. “Interpretability vs Neuroscience [rough note]”. 2022年11月24日時点のオリジナルよりアーカイブ。2022年11月24日閲覧。
  100. ^ Gu, Tianyu; Dolan-Gavitt, Brendan; Garg, Siddharth (2019-03-11). BadNets: Identifying Vulnerabilities in the Machine Learning Model Supply Chain. arXiv:1708.06733. 
  101. ^ Chen, Xinyun; Liu, Chang; Li, Bo; Lu, Kimberly; Song, Dawn (2017-12-14). Targeted Backdoor Attacks on Deep Learning Systems Using Data Poisoning. arXiv:1712.05526. 
  102. ^ Carlini, Nicholas; Terzis, Andreas (2022-03-28). “Poisoning and Backdooring Contrastive Learning”. ICLR. arXiv:2106.09667. 
  103. ^ “How 'sleeper agent' AI assistants can sabotage code” (英語). The Register. (2024年1月16日). オリジナルの2024年12月24日時点におけるアーカイブ。. https://web.archive.org/web/20241224045421/https://www.theregister.com/2024/01/16/poisoned_ai_models 2025年1月12日閲覧。 
  104. ^ a b c d Russell, Stuart J.; Norvig, Peter (2020). Artificial intelligence: A modern approach (4th ed.). Pearson. pp. 31-34. ISBN 978-1-292-40113-3. OCLC 1303900751. オリジナルのJuly 15, 2022時点におけるアーカイブ。. https://web.archive.org/web/20220715195054/https://www.pearson.com/us/higher-education/program/Russell-Artificial-Intelligence-A-Modern-Approach-4th-Edition/PGM1263338.html 2022年9月12日閲覧。 
  105. ^ Pan, Alexander; Bhatia, Kush; Steinhardt, Jacob (14 February 2022). The Effects of Reward Misspecification: Mapping and Mitigating Misaligned Models. International Conference on Learning Representations. 2022年7月21日閲覧.
  106. ^ Zhuang, Simon; Hadfield-Menell, Dylan (2020). “Consequences of Misaligned AI”. Advances in Neural Information Processing Systems. Vol. 33. Curran Associates, Inc. pp. 15763–15773. 2023年3月11日閲覧.
  107. ^ Carlsmith, Joseph (16 June 2022). “Is Power-Seeking AI an Existential Risk?”. arXiv:2206.13353 [cs.CY].
  108. ^ a b Russell, Stuart J. (2020). Human compatible: Artificial intelligence and the problem of control. Penguin Random House. ISBN 9780525558637. OCLC 1113410915. https://www.penguinrandomhouse.com/books/566677/human-compatible-by-stuart-russell/ 
  109. ^ Christian, Brian (2020). The alignment problem: Machine learning and human values. W. W. Norton & Company. ISBN 978-0-393-86833-3. OCLC 1233266753. オリジナルのFebruary 10, 2023時点におけるアーカイブ。. https://web.archive.org/web/20230210114137/https://wwnorton.co.uk/books/9780393635829-the-alignment-problem 2022年9月12日閲覧。 
  110. ^ Langosco, Lauro Langosco Di; Koch, Jack; Sharkey, Lee D.; Pfau, Jacob; Krueger, David (28 June 2022). “Goal Misgeneralization in Deep Reinforcement Learning”. Proceedings of the 39th International Conference on Machine Learning. International Conference on Machine Learning. PMLR. pp. 12004–12019. 2023年3月11日閲覧.
  111. ^ Bommasani, Rishi; Hudson, Drew A.; Adeli, Ehsan; Altman, Russ; Arora, Simran; von Arx, Sydney; Bernstein, Michael S.; Bohg, Jeannette et al. (2022-07-12). “On the Opportunities and Risks of Foundation Models”. Stanford CRFM. arXiv:2108.07258. https://fsi.stanford.edu/publication/opportunities-and-risks-foundation-models. 
  112. ^ Ouyang, Long; Wu, Jeff; Jiang, Xu; Almeida, Diogo; Wainwright, Carroll L.; Mishkin, Pamela; Zhang, Chong; Agarwal, Sandhini; Slama, Katarina; Ray, Alex; Schulman, J.; Hilton, Jacob; Kelton, Fraser; Miller, Luke E.; Simens, Maddie; Askell, Amanda; Welinder, P.; Christiano, P.; Leike, J.; Lowe, Ryan J. (2022). “Training language models to follow instructions with human feedback”. arXiv:2203.02155 [cs.CL].
  113. ^ OpenAI Codex”. OpenAI (2021年8月10日). 2023年2月3日時点のオリジナルよりアーカイブ。2022年7月23日閲覧。
  114. ^ Kober, Jens; Bagnell, J. Andrew; Peters, Jan (2013-09-01). “Reinforcement learning in robotics: A survey” (英語). The International Journal of Robotics Research 32 (11): 1238–1274. doi:10.1177/0278364913495721. ISSN 0278-3649. オリジナルのOctober 15, 2022時点におけるアーカイブ。. https://web.archive.org/web/20221015200445/https://journals.sagepub.com/doi/10.1177/0278364913495721 2022年9月12日閲覧。. 
  115. ^ Knox, W. Bradley; Allievi, Alessandro; Banzhaf, Holger; Schmitt, Felix; Stone, Peter (2023-03-01). “Reward (Mis)design for autonomous driving” (英語). Artificial Intelligence 316: 103829. doi:10.1016/j.artint.2022.103829. ISSN 0004-3702. https://www.sciencedirect.com/science/article/pii/S0004370222001692. 
  116. ^ Stray, Jonathan (2020). “Aligning AI Optimization to Community Well-Being” (英語). International Journal of Community Well-Being 3 (4): 443–463. doi:10.1007/s42413-020-00086-3. ISSN 2524-5295. PMC 7610010. PMID 34723107. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7610010/. 
  117. ^ Russell, Stuart; Norvig, Peter (2009). Artificial Intelligence: A Modern Approach. Prentice Hall. pp. 1010. ISBN 978-0-13-604259-4. https://aima.cs.berkeley.edu/ 
  118. ^ Ngo, Richard; Chan, Lawrence; Mindermann, Sören (22 February 2023). “The alignment problem from a deep learning perspective”. arXiv:2209.00626 [cs.AI].
  119. ^ Smith, Craig S.. “Geoff Hinton, AI's Most Famous Researcher, Warns Of 'Existential Threat'” (英語). Forbes. 2023年5月4日閲覧。
  120. ^ Future of Life Institute (2017年8月11日). “Asilomar AI Principles”. Future of Life Institute. 2022年10月10日時点のオリジナルよりアーカイブ。2022年7月18日閲覧。 The AI principles created at the Asilomar Conference on Beneficial AI were signed by 1797 AI/robotics researchers.
    • United Nations (2021). Our Common Agenda: Report of the Secretary-General (PDF) (Report). New York: United Nations. 2022年5月22日時点のオリジナルよりアーカイブ (PDF). 2022年9月12日閲覧. [T]he [UN] could also promote regulation of artificial intelligence to ensure that this is aligned with shared global values.
  121. ^ Amodei, Dario; Olah, Chris; Steinhardt, Jacob; Christiano, Paul; Schulman, John; Mané, Dan (21 June 2016). “Concrete Problems in AI Safety” (英語). arXiv:1606.06565 [cs.AI].
  122. ^ Building safe artificial intelligence: specification, robustness, and assurance”. DeepMind Safety Research – Medium (2018年9月27日). 2023年2月10日時点のオリジナルよりアーカイブ。2022年7月18日閲覧。
  123. ^ a b Rorvig, Mordechai (2022年4月14日). “Researchers Gain New Understanding From Simple AI”. Quanta Magazine. 2023年2月10日時点のオリジナルよりアーカイブ。2022年7月18日閲覧。
  124. ^ Doshi-Velez, Finale; Kim, Been (2 March 2017). “Towards A Rigorous Science of Interpretable Machine Learning”. arXiv:1702.08608 [stat.ML].
  125. ^ Russell, Stuart; Dewey, Daniel; Tegmark, Max (2015-12-31). “Research Priorities for Robust and Beneficial Artificial Intelligence”. AI Magazine 36 (4): 105–114. doi:10.1609/aimag.v36i4.2577. hdl:1721.1/108478. ISSN 2371-9621. オリジナルのFebruary 2, 2023時点におけるアーカイブ。. https://web.archive.org/web/20230202181059/https://ojs.aaai.org/index.php/aimagazine/article/view/2577 2022年9月12日閲覧。. 
  126. ^ Wirth, Christian; Akrour, Riad; Neumann, Gerhard; Fürnkranz, Johannes (2017). “A survey of preference-based reinforcement learning methods”. Journal of Machine Learning Research 18 (136): 1–46. 
  127. ^ Christiano, Paul F.; Leike, Jan; Brown, Tom B.; Martic, Miljan; Legg, Shane; Amodei, Dario (2017). “Deep reinforcement learning from human preferences”. Proceedings of the 31st International Conference on Neural Information Processing Systems. NIPS'17. Red Hook, NY, USA: Curran Associates Inc. pp. 4302–4310. ISBN 978-1-5108-6096-4.
  128. ^ Heaven, Will Douglas (2022年1月27日). “The new version of GPT-3 is much better behaved (and should be less toxic)”. MIT Technology Review. 2023年2月10日時点のオリジナルよりアーカイブ。2022年7月18日閲覧。
  129. ^ Mohseni, Sina; Wang, Haotao; Yu, Zhiding; Xiao, Chaowei; Wang, Zhangyang; Yadawa, Jay (7 March 2022). “Taxonomy of Machine Learning Safety: A Survey and Primer”. arXiv:2106.04823 [cs.LG].
  130. ^ Clifton, Jesse (2020年). “Cooperation, Conflict, and Transformative Artificial Intelligence: A Research Agenda”. Center on Long-Term Risk. 2023年1月1日時点のオリジナルよりアーカイブ。2022年7月18日閲覧。
  131. ^ Prunkl, Carina; Whittlestone, Jess (2020-02-07). “Beyond Near- and Long-Term: Towards a Clearer Account of Research Priorities in AI Ethics and Society” (英語). Proceedings of the AAAI/ACM Conference on AI, Ethics, and Society (New York NY USA: ACM): 138–143. doi:10.1145/3375627.3375803. ISBN 978-1-4503-7110-0. オリジナルのOctober 16, 2022時点におけるアーカイブ。. https://web.archive.org/web/20221016123733/https://dl.acm.org/doi/10.1145/3375627.3375803 2022年9月12日閲覧。. 
  132. ^ Irving, Geoffrey; Askell, Amanda (2019-02-19). “AI Safety Needs Social Scientists”. Distill 4 (2): 10.23915/distill.00014. doi:10.23915/distill.00014. ISSN 2476-0757. オリジナルのFebruary 10, 2023時点におけるアーカイブ。. https://web.archive.org/web/20230210114220/https://distill.pub/2019/safety-needs-social-scientists/ 2022年9月12日閲覧。. 
  133. ^ a b c d Zwetsloot (2019年2月11日). “Thinking About Risks From AI: Accidents, Misuse and Structure”. Lawfare. 2023年8月19日時点のオリジナルよりアーカイブ。2022年11月24日閲覧。
  134. ^ Zhang, Yingyu; Dong, Chuntong; Guo, Weiqun; Dai, Jiabao; Zhao, Ziming (2022). “Systems theoretic accident model and process (STAMP): A literature review” (英語). Safety Science 152. doi:10.1016/j.ssci.2021.105596. https://linkinghub.elsevier.com/retrieve/pii/S0925753521004367 2022年11月28日閲覧。. 
  135. ^ a b Gazos, Alexandros; Kahn, James; Kusche, Isabel; Büscher, Christian; Götz, Markus (2025-04-01). “Organising AI for safety: Identifying structural vulnerabilities to guide the design of AI-enhanced socio-technical systems”. Safety Science 184. doi:10.1016/j.ssci.2024.106731. ISSN 0925-7535. 
  136. ^ Center for Security and Emerging Technology; Hoffman, Wyatt (2021). “AI and the Future of Cyber Competition”. CSET Issue Brief. doi:10.51593/2020ca007. https://cset.georgetown.edu/publication/ai-and-the-future-of-cyber-competition/ 2022年11月28日閲覧。. 
  137. ^ Gafni, Ruti; Levy, Yair (2024-01-01). “The role of artificial intelligence (AI) in improving technical and managerial cybersecurity tasks' efficiency”. Information & Computer Security 32 (5): 711–728. doi:10.1108/ICS-04-2024-0102. ISSN 2056-4961. https://doi.org/10.1108/ICS-04-2024-0102. 
  138. ^ Center for Security and Emerging Technology; Imbrie, Andrew; Kania, Elsa (2019). AI Safety, Security, and Stability Among Great Powers: Options, Challenges, and Lessons Learned for Pragmatic Engagement. doi:10.51593/20190051. https://cset.georgetown.edu/publication/ai-safety-security-and-stability-among-great-powers-options-challenges-and-lessons-learned-for-pragmatic-engagement/ 2022年11月28日閲覧。. 
  139. ^ Future of Life Institute (27 March 2019). AI Strategy, Policy, and Governance (Allan Dafoe). 該当時間: 17:41. 2022年11月23日時点のオリジナルよりアーカイブ. 2022年11月23日閲覧.
  140. ^ Zou, Andy; Xiao, Tristan; Jia, Ryan; Kwon, Joe; Mazeika, Mantas; Li, Richard; Song, Dawn; Steinhardt, Jacob et al. (2022-10-09). “Forecasting Future World Events with Neural Networks”. NeurIPS. arXiv:2206.15474. 
  141. ^ Gathani, Sneha; Hulsebos, Madelon; Gale, James; Haas, Peter J.; Demiralp, Çağatay (2022-02-08). “Augmenting Decision Making via Interactive What-If Analysis”. Conference on Innovative Data Systems Research. arXiv:2109.06160. 
  142. ^ Lindelauf, Roy (2021), Osinga, Frans; Sweijs, Tim, eds., “Nuclear Deterrence in the Algorithmic Age: Game Theory Revisited” (英語), NL ARMS Netherlands Annual Review of Military Studies 2020, Nl Arms (The Hague: T.M.C. Asser Press): pp. 421–436, doi:10.1007/978-94-6265-419-8_22, ISBN 978-94-6265-418-1 
  143. ^ a b Newkirk II (2016年4月21日). “Is Climate Change a Prisoner's Dilemma or a Stag Hunt?”. The Atlantic. 2022年11月24日時点のオリジナルよりアーカイブ。2022年11月24日閲覧。
  144. ^ a b Armstrong, Stuart; Bostrom, Nick; Shulman, Carl. Racing to the Precipice: a Model of Artificial Intelligence Development (Report). Future of Humanity Institute, Oxford University.
  145. ^ a b Dafoe, Allan. AI Governance: A Research Agenda (Report). Centre for the Governance of AI, Future of Humanity Institute, University of Oxford.
  146. ^ Dafoe, Allan; Hughes, Edward; Bachrach, Yoram; Collins, Tantum; McKee, Kevin R.; Leibo, Joel Z.; Larson, Kate; Graepel, Thore (2020-12-15). “Open Problems in Cooperative AI”. NeurIPS. arXiv:2012.08630. 
  147. ^ a b Dafoe, Allan; Bachrach, Yoram; Hadfield, Gillian; Horvitz, Eric; Larson, Kate; Graepel, Thore (2021). “Cooperative AI: machines must learn to find common ground”. Nature 593 (7857): 33–36. Bibcode2021Natur.593...33D. doi:10.1038/d41586-021-01170-0. PMID 33947992. https://www.nature.com/articles/d41586-021-01170-0 2022年11月24日閲覧。. 
  148. ^ Bender, E.M., Gebru, T., McMillan-Major, A., & Shmitchell, S. (2021). On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? 🦜. FAccT '21: Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency, 610-623. https://doi.org/10.1145/3442188.3445922.
  149. ^ Strubell, E., Ganesh, A., & McCallum, A. (2019). Energy and Policy Considerations for Deep Learning in NLP. arXiv preprint arXiv:1906.02243.
  150. ^ Schwartz, R., Dodge, J., Smith, N.A., & Etzioni, O. (2020). Green AI. Communications of the ACM, 63(12), 54-63. https://doi.org/10.1145/3442188.3445922.
  151. ^ How To Hack Large Language Models (LLM)”. 2025年7月31日閲覧。
  152. ^ Satariano, Adam; Specia, Megan (2023年11月1日). “Global Leaders Warn A.I. Could Cause 'Catastrophic' Harm” (英語). The New York Times. ISSN 0362-4331. https://www.nytimes.com/2023/11/01/world/europe/uk-ai-summit-sunak.html 2024年4月20日閲覧。 
  153. ^ AIガバナンス – 生成AI時代に求められる信頼できるAIの実現の道筋”. Deloitte (2025年3月5日). 2025年7月31日閲覧。
  154. ^ Future of Life Institute (27 March 2019). AI Strategy, Policy, and Governance (Allan Dafoe). 該当時間: 22:05. 2022年11月23日時点のオリジナルよりアーカイブ. 2022年11月23日閲覧.
  155. ^ Crafts, Nicholas (2021-09-23). “Artificial intelligence as a general-purpose technology: an historical perspective” (英語). Oxford Review of Economic Policy 37 (3): 521–536. doi:10.1093/oxrep/grab012. ISSN 0266-903X. https://academic.oup.com/oxrep/article/37/3/521/6374675 2022年11月28日閲覧。. 
  156. ^ 葉俶禎; 黃子君; 張媁雯; 賴志樫 (2020-12-01). “Labor Displacement in Artificial Intelligence Era: A Systematic Literature Review” (英語). 臺灣東亞文明研究學刊 17 (2). doi:10.6163/TJEAS.202012_17(2).0002. ISSN 1812-6243. 
  157. ^ Johnson, James (2019-04-03). “Artificial intelligence & future warfare: implications for international security” (英語). Defense & Security Analysis 35 (2): 147–169. doi:10.1080/14751798.2019.1600800. ISSN 1475-1798. https://www.tandfonline.com/doi/full/10.1080/14751798.2019.1600800 2022年11月28日閲覧。. 
  158. ^ Kertysova, Katarina (2018-12-12). “Artificial Intelligence and Disinformation: How AI Changes the Way Disinformation is Produced, Disseminated, and Can Be Countered”. Security and Human Rights 29 (1–4): 55–81. doi:10.1163/18750230-02901005. ISSN 1874-7337. 
  159. ^ Feldstein, Steven (2019). The Global Expansion of AI Surveillance. Carnegie Endowment for International Peace.
  160. ^ Agrawal, Ajay; Gans, Joshua; Goldfarb, Avi (2019) (英語). The economics of artificial intelligence: an agenda. Chicago, Illinois. ISBN 978-0-226-61347-5. OCLC 1099435014 
  161. ^ Whittlestone, Jess; Clark, Jack (2021-08-31). Why and How Governments Should Monitor AI Development. arXiv:2108.12427. 
  162. ^ a b Shevlane (2022年). “Sharing Powerful AI Models | GovAI Blog”. Center for the Governance of AI. 2022年11月24日時点のオリジナルよりアーカイブ。2022年11月24日閲覧。
  163. ^ Gursoy, Furkan; Kakadiaris, Ioannis A. (2022-08-31), System Cards for AI-Based Decision-Making for Public Policy, arXiv:2203.04754 
  164. ^ Cobbe, Jennifer; Lee, Michelle Seng Ah; Singh, Jatinder (2021-03-01). “Reviewable Automated Decision-Making: A Framework for Accountable Algorithmic Systems”. Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency. FAccT '21. New York, NY, USA: Association for Computing Machinery. pp. 598–609. doi:10.1145/3442188.3445921. ISBN 978-1-4503-8309-7 
  165. ^ Raji, Inioluwa Deborah; Smart, Andrew; White, Rebecca N.; Mitchell, Margaret; Gebru, Timnit; Hutchinson, Ben; Smith-Loud, Jamila; Theron, Daniel et al. (2020-01-27). “Closing the AI accountability gap: Defining an end-to-end framework for internal algorithmic auditing”. Proceedings of the 2020 Conference on Fairness, Accountability, and Transparency. FAT* '20. New York, NY, USA: Association for Computing Machinery. pp. 33–44. doi:10.1145/3351095.3372873. ISBN 978-1-4503-6936-7 
  166. ^ Manheim, David; Martin, Sammy; Bailey, Mark; Samin, Mikhail; Greutzmacher, Ross (2025). “The necessity of AI audit standards boards”. AI & Society. arXiv:2404.13060. doi:10.1007/s00146-025-02320-y. https://link.springer.com/article/10.1007/s00146-025-02320-y. 
  167. ^ Novelli, Claudio; Taddeo, Mariarosaria; Floridi, Luciano (2024). “Accountability in artificial intelligence: what it is and how it works”. AI & Society 39 (4): 1871–1882. doi:10.1007/s00146-023-01635-y. hdl:11585/914099. https://link.springer.com/article/10.1007/s00146-023-01635-y. 
  168. ^ NeMo Guardrails”. NVIDIA NeMo Guardrails. 2024年12月8日閲覧。
  169. ^ Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations”. Meta AI. 2024年12月8日閲覧。
  170. ^ Dong, Yi; Mu, Ronghui. “Building Guardrails for Large Language Models”. arXiv:2402.01822 [cs].
  171. ^ D’Alessandro, W. (2024). “Deontology and safe artificial intelligence”. Philosophical Studies. doi:10.1007/s11098-024-02174-y. 
  172. ^ Turchin, Alexey; Dench, David; Green, Brian Patrick (2019). “Global Solutions vs. Local Solutions for the AI Safety Problem”. Big Data and Cognitive Computing 3 (16): 1–25. doi:10.3390/bdcc3010016. 
  173. ^ Ziegler, Bart (2022年4月8日). “Is It Time to Regulate AI?”. Wall Street Journal 
  174. ^ Smith, John (2022年5月15日). “Global Governance of Artificial Intelligence: Opportunities and Challenges”. The Guardian 
  175. ^ Ziegler, Bart (2022年4月8日). “Is It Time to Regulate AI?”. Wall Street Journal. オリジナルの2022年11月24日時点におけるアーカイブ。. https://web.archive.org/web/20221124125645/https://www.wsj.com/articles/is-it-time-to-regulate-ai-11649433600 2022年11月24日閲覧。 
  176. ^ Reed, Chris (2018-09-13). “How should we regulate artificial intelligence?” (英語). Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences 376 (2128): 20170360. Bibcode2018RSPTA.37670360R. doi:10.1098/rsta.2017.0360. ISSN 1364-503X. PMC 6107539. PMID 30082306. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6107539/. 
  177. ^ Belton (2019年3月7日). “How Should AI Be Regulated?”. IndustryWeek. 2022年1月29日時点のオリジナルよりアーカイブ。2022年11月24日閲覧。
  178. ^ National Security Commission on Artificial Intelligence (2021), Final Report 
  179. ^ National Institute of Standards and Technology (2021-07-12). “AI Risk Management Framework”. NIST. https://www.nist.gov/itl/ai-risk-management-framework 2022年11月24日閲覧。. 
  180. ^ 科学技術振興機構, 国立研究開発法人 (2021年9月22日). “国家AI戦略 « デイリーウォッチャー|研究開発戦略センター(CRDS)”. crds.jst.go.jp. 2025年8月2日閲覧。
  181. ^ 新AI戦略検討会議(第1回)イギリス公共部門におけるAI・データ戦略の調査結果”. 2025年8月2日閲覧。
  182. ^ Richardson (2021年). “Britain publishes 10-year National Artificial Intelligence Strategy”. 2023年2月10日時点のオリジナルよりアーカイブ。2022年11月24日閲覧。
  183. ^ a b Guidance: National AI Strategy”. GOV.UK (2021年). 2023年2月10日時点のオリジナルよりアーカイブ。2022年11月24日閲覧。
  184. ^ Hardcastle (2023年8月23日). “We're talking about AI a lot right now – and it's not a moment too soon” (英語). The Conversation. 2023年10月31日閲覧。
  185. ^ Iconic Bletchley Park to host UK AI Safety Summit in early November” (英語). GOV.UK. 2023年10月31日閲覧。
  186. ^ Office of the Director of National Intelligence, Intelligence Advanced Research Projects Activity. “IARPA – TrojAI”. 2022年11月24日時点のオリジナルよりアーカイブ。2022年11月24日閲覧。
  187. ^ Turek. “Explainable Artificial Intelligence”. 2021年2月19日時点のオリジナルよりアーカイブ。2022年11月24日閲覧。
  188. ^ Draper. “Guaranteeing AI Robustness Against Deception”. Defense Advanced Research Projects Agency. 2023年1月9日時点のオリジナルよりアーカイブ。2022年11月24日閲覧。
  189. ^ National Science Foundation (2023年2月23日). “Safe Learning-Enabled Systems”. 2023年2月26日時点のオリジナルよりアーカイブ。2023年2月27日閲覧。
  190. ^ “General Assembly adopts landmark resolution on artificial intelligence”. UN News. (2024年3月21日). オリジナルの2024年4月20日時点におけるアーカイブ。. https://web.archive.org/web/20240420010734/https://news.un.org/en/story/2024/03/1147831 2024年4月21日閲覧。 
  191. ^ Say, Mark (2024年5月23日). “DSIT announces funding for research on AI safety”. オリジナルの2024年5月24日時点におけるアーカイブ。. https://web.archive.org/web/20240524232313/https://www.ukauthority.com/articles/dsit-announces-funding-for-research-on-ai-safety/ 2024年6月11日閲覧。 
  192. ^ Mäntymäki, Matti; Minkkinen, Matti; Birkstedt, Teemu; Viljanen, Mika (2022). “Defining organizational AI governance” (英語). AI and Ethics 2 (4): 603–609. doi:10.1007/s43681-022-00143-x. ISSN 2730-5953. 
  193. ^ a b c Brundage, Miles; Avin, Shahar; Wang, Jasmine; Belfield, Haydn; Krueger, Gretchen; Hadfield, Gillian; Khlaaf, Heidy; Yang, Jingying et al. (2020-04-20). Toward Trustworthy AI Development: Mechanisms for Supporting Verifiable Claims. arXiv:2004.07213. 
  194. ^ Welcome to the Artificial Intelligence Incident Database”. 2022年11月24日時点のオリジナルよりアーカイブ。2022年11月24日閲覧。
  195. ^ Wiblin (2022年). “Nova DasSarma on why information security may be critical to the safe development of AI systems”. 80,000 Hours. 2022年11月24日時点のオリジナルよりアーカイブ。2022年11月24日閲覧。
  196. ^ OpenAI (2022年6月2日). “Best Practices for Deploying Language Models”. OpenAI. 2023年3月15日時点のオリジナルよりアーカイブ。2022年11月24日閲覧。
  197. ^ OpenAI. “OpenAI Charter”. OpenAI. 2021年3月4日時点のオリジナルよりアーカイブ。2022年11月24日閲覧。
  198. ^ Future of Life Institute. “AI Principles”. Future of Life Institute. 2022年11月23日時点のオリジナルよりアーカイブ。2022年11月23日閲覧。
  199. ^ Open Letter on Autonomous Weapons Japanese”. Future of Life Institute (2022年9月29日). 2025年8月2日閲覧。
  200. ^ Future of Life Institute (2016年). “Autonomous Weapons Open Letter: AI & Robotics Researchers”. Future of Life Institute. 2023年9月22日時点のオリジナルよりアーカイブ。2022年11月24日閲覧。

関連項目

外部リンク




英和和英テキスト翻訳>> Weblio翻訳
英語⇒日本語日本語⇒英語
  
  •  AIセーフティのページへのリンク

辞書ショートカット

すべての辞書の索引

「AIセーフティ」の関連用語

AIセーフティのお隣キーワード
検索ランキング

   

英語⇒日本語
日本語⇒英語
   



AIセーフティのページの著作権
Weblio 辞書 情報提供元は 参加元一覧 にて確認できます。

   
ウィキペディアウィキペディア
All text is available under the terms of the GNU Free Documentation License.
この記事は、ウィキペディアのAIセーフティ (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。 Weblio辞書に掲載されているウィキペディアの記事も、全てGNU Free Documentation Licenseの元に提供されております。

©2025 GRAS Group, Inc.RSS