AI安全性英語: AI safety)とは、人工知能(AI)システムに起因する事故、誤用、またはその他の有害な結果を防止することに焦点を当てた学際的な分野である。AIシステムが倫理的で有益であることを保証することを目的とするAI倫理AIアライメント、ならびにリスクについてAIシステムを監視し、その信頼性を向上させることを包含する。この分野は、特に高度なAIモデルによってもたらされる存亡リスクに関心を持っている。






アンドリュー・ンのように、2015年にAGIに関する懸念を「火星に足を踏み入れたことさえないのに、火星の人口過剰を心配するようなものだ」と比較し、批判する人もいる[13]。 一方、スチュアート・J・ラッセルは注意を促し、「人間の創意工夫を過小評価するよりも、それを予測する方が良い」と主張している[14]






2011年、ロマン・ヤンポルスキー英語版は、人工知能の哲学と理論に関する会議で「AI Safety Engineering(AI安全性工学)」という用語を導入し[21][22]、AIシステムの過去の失敗を列挙し、「AIがより能力を高めるにつれて、そのようなイベントの頻度と深刻さは着実に増加するだろう」と主張した。[23]

2014年、哲学者ニック・ボストロムは著書『スーパーインテリジェンス 超絶AIと人類の命運英語版』を出版した。彼は、AGIの台頭は、AIによる労働力の置き換え、政治および軍事構造の操作、さらには人類絶滅の可能性に至るまで、さまざまな社会問題を引き起こす可能性があると主張している[24]。将来の高度なシステムが人類の存在に脅威を与える可能性があるという彼の主張は、イーロン・マスク[25]ビル・ゲイツ[26]スティーブン・ホーキング[27]らが同様の懸念を表明するきっかけとなった。



2016年、ホワイトハウス科学技術政策局カーネギーメロン大学は、人工知能の安全性と制御に関する公開ワークショップを発表した[29]。これは、AIの「長所と短所」を調査することを目的とした、ホワイトハウスの4つのワークショップのうちの1つだった[30]。同年、AI安全性に関する最初期かつ最も影響力のある技術的なアジェンダの1つである「Concrete Problems in AI Safety」が発表された[31]


2018年、DeepMind Safetyチームは、仕様、堅牢性[33]、保証[34]におけるAI安全性の問題の概要を説明した。翌年、研究者たちはICLR英語版でこれらの問題領域に焦点を当てたワークショップを開催した[35]

2021年、「Unsolved Problems in ML Safety」が発表され、堅牢性、監視、アラインメント、システムの安全性における研究の方向性が示された[36]









図1はすべて、犬の画像に対して摂動が適用された後にダチョウと予測されている。(左) 正しく予測されたサンプル、(中央) 10倍に拡大された摂動、(右) 敵対的サンプル[43]






同様に、異常検出または out-of-distribution(OOD)検出は、AIシステムが異常な状況にあるときを特定することを目的としている。例えば、自動運転車のセンサーが故障している場合、または困難な地形に遭遇した場合、運転者に制御を引き継ぐか、路肩に停車するように警告する必要がある[58]。異常検出は、異常な入力と異常でない入力を区別するように分類器を訓練することによって実装されてきたが[59]、他にもさまざまな技術が使用されている[60][61]







透明性技術は、エラーを修正するためにも使用できる。例えば、「Locating and Editing Factual Associations in GPT」という論文では、著者はエッフェル塔の場所に関する質問にどのように答えるかに影響を与えるモデルパラメータを特定することができた。そして、モデルが塔がフランスではなくローマにあると信じるかのように質問に答えるように、この知識を「編集」することができた[74]。この場合、著者はエラーを誘発したが、これらの方法は潜在的にエラーを効率的に修正するために使用できる可能性がある。モデル編集技術はコンピュータビジョンにも存在する[75]





人工知能(AI)において、AIアライメント()は、AIシステムを人間の意図する目的や嗜好、または倫理原則に合致させることを目的とする研究領域である。意図した目標を達成するAIシステムは、整合したAIシステム(aligned AI system)とみなされる。一方、整合しない、あるいは整合を欠いたAIシステム(misaligned AI system)は、目標の一部を適切に達成する能力はあっても、残りの目標を達成することができない[87]




















