ATLAS OF AIを読んだ感想文

h
·

Kate Crawford著者のATLAS OF AIを読了した。今年はAI Ethics関連本も読むと決めているのでこういったテーマの感想文が増える予定。

この本はアルゴリズムとデータセットに基づいて構築されたものをAIとすることは人間の知能や意識を単なる情報処理のプロセスとして理解することを促し、こういったデカルト的二元論に基づくAI設計は、人間の知能や心の複雑さを過小評価しているという冒頭からやや難しい内容で読み切れるか心配になったがとても面白く読めた。また、既に起こっている環境破壊や紛争に繋がっていたりとAIの危険性をとても広い視点で詳細に指摘していて読者をモラルのジレンマに苦しめてくるし如何に自分が狭い視野で考えていたかを思い知らされた。これぞAI Ethicsという本。

以下は特に印象的に残った部分をまとめていく。

環境問題

AI技術の発展と広がりに伴い、リチウムやレアアースなどの鉱物資源の需要が急増している。これらの資源は、スマートフォン、PC、電気自動車などの製品に不可欠だが、その採掘は環境破壊や地域社会への悪影響を伴う。特にリチウムやレアアースのような鉱物は、特定の地域に集中して存在するため、それらの地域では環境破壊、労働者の権利侵害、地域社会の生活の乱れ、そして政治的な緊張が生じている。資源の豊富な地域は国際的な関心の対象となり、これが地域の政治的な緊張や紛争の原因になっている。例えばコンゴの鉱物資源は、長年にわたる武装紛争の資金源となっており、多くの武装グループが鉱山を掌握し、そこからの収益を利用して武器を購入し、紛争を継続させている。別件にはなるが、前にムクウェゲという医師のドキュメンタリーでこの資源の紛争がどう女性に深刻な影響を与えているかについて語っており、このドキュメンタリーはかなりおすすめしたい。

また、採掘で得られる鉱石のわずか0.2%だけが価値のある元素を含んでおり、残り99.8%は廃棄物として排出され、環境汚染を引き起こす。1トンの希少地球元素を精錬する過程で、75,000リットルの酸性水と1トンの放射性残留物が生じると推定されている。

テクノロジー産業は環境方針や持続可能性を大々的に宣伝しているが、実際にはデータセンターやAIシステムの運用には巨大なエネルギーが必要であり、その環境への影響は公にされているイメージとはかけ離れている。AIとクラウドコンピューティングは膨大な電力を消費し、その結果として大きなCarbon footprintを残しており、この電力の多くは化石燃料から得られているため、再生可能エネルギーへの転換にも関わらず、セクター全体の炭素排出量は増加しているらしい。ちなみにたった1台のNLPモデルを動かすだけで、膨大な量の二酸化炭素を排出し、その量は5台のガソリン車の寿命分またはニューヨークから北京までの往復飛行125回分に相当する。

"クラウド"という言葉は自然なイメージを持たせ、エコフレンドリーなもののように聞こえ、AIで環境問題を解決するというが実際には巨大なデータセンターが大量の電力を消費しており、AIの運用自体が環境に悪影響を及ぼしている。なんとも耳が痛い話。

労働

AIシステムの構築、維持、およびテストに必要な、過小評価されている労働力について論じており、この「見えない」労働は、AIシステムの基盤を作るために資源を採掘し輸送する鉱業セクターから、分散した労働力が微細なタスクごとにわずかな報酬を受け取るソフトウェア側に至るまで、AIパイプラインのすべての段階に存在する。このような労働には、トレーニングデータのラベリングや不審または有害なコンテンツのレビューなど、AIシステムを支える繰り返し作業が含まれるが、これらの作業を行う労働者はほとんど評価されない。

国連国際労働機関の調査では、Amazon Mechanical Turk、Figure Eight、Microworkers、Clickworkerなどの人気タスクプラットフォームで労働を提供する3500人のクラウドワーカーのうち、多数が地元の最低賃金を下回る報酬を得ていることが明らかにされた。これらの労働者は高度に教育を受けており、科学技術分野に特化していることが多いのも特徴的。また、暴力的なビデオやヘイトスピーチの評価など、コンテンツモデレーションの仕事をする人々も同様に低賃金で働いている。

また、GoogleのreCAPTCHAなど、私たちが無報酬でAIシステムの微調整に貢献している場面もある。これらの例は、AIの神話が搾取の層に依存していることを示している。

データ

(ここで機械学習がどうやって機能してるのかざっくりと簡単に説明しておきたい。教師あり学習とはラベル付けされたトレーニングデータを使用してモデルを訓練するプロセスであり、未知の問題に答える方法を学ぶ。例えば、犬と猫の写真を見分けることを学ぶ場合、犬と猫の写真(問題)とそれぞれが「犬」「猫」であるという正解(ラベル)を機械に教えることで、新しい写真が犬か猫かを判断できるようになる。逆に教師なし学習は答えのない問題集で自分でパターンやグループを見つけ出すようなもの。ということはデータの質や量にかなり左右される。)

米国国立標準技術研究所(NIST)が保持するデータセットではマグショットと呼ばれる逮捕時の顔写真がAIシステムが顔を検出するための技術的基準として使用されている。しかし、これらの写真に写っている人々やその家族は、これらの画像がAIのテストベッドの一部としてどのように使用されているかについて、意見を言う機会がなく、多くの場合、その事実を知らされていない。

2013年にニューヨーク市タクシー・リムジン委員会が公開した1億7300万件のタクシー乗車データセットは、個人情報が匿名化されていたにも関わらず、研究者によって個人を再特定することや敏感な情報を推測することが可能となった。例えば、タクシー運転手の年収や自宅住所、有名人や政治家の行動パターン、ストリップクラブへの訪問などが明らかにされた。さらに、このデータセットは集団やコミュニティに対する「予測的プライバシーの害」も生じさせている。例えば、祈りの時間に停車するタクシー運転手が信心深いムスリムである可能性を示唆するなど。

データに関する議論は、個人的で親密なもの、または個々の所有や管理の対象という考え方から、より非人間的で中立的なリソースとして消費され、制御され、活用されるべきものへと変化している。「データマイニング」や「データは新たな石油である」という表現は、この観点のシフトを象徴しており、データを自然資源のように見るメタファーは、植民地権力によって長年使われてきたレトリックの一つらしい。このような視点は、データを無形で抽象的なものと見なし、伝統的なケア、同意、リスクの理解や責任から逸脱させやすくする。また、データは資本としても見られるようになり、ネオリベラルな市場主義の視点に沿って、人間の活動をデジタルの痕跡として数値化し、価値を抽出する手段として機能している。データが資本と見なされることで、より多くのデータを収集することが正当化され、データ資本主義の下で、すべてがデータ化されるべき対象と見なされている。これは、データの無限の蓄積と流通を永遠に続けることができるという考え方につながり、データ抽出の大量化は資本主義の「新たなフロンティア」として、AI機能の基礎層を形成している。

AIシステム構築のための人々のデータ収集は、プライバシーに関する明確な懸念を引き起こしている。例えば、イギリスのロイヤル・フリー国民保健サービス信託がGoogleの子会社DeepMindとの間で行った、160万人の患者データ共有の取引は、データ保護法違反であることが発覚した。データ抽出やトレーニングデータセットの構築は、以前は共有資源の一部であったものを商業化し、公共の財から知識価値を抽出するという形の侵食だと著者は指摘している。公共のデータや共有資源が大企業によって抽出され、それら企業の私有資産となり、結果としてそれら企業だけが莫大な利益を得ているという構図。

などなど、本当はもっとあるのだけど(最後の宇宙進出の話は恐怖すら感じた)長くなってしまうので感想文ではここあたりにしておく。またこの本でも前に読んだAutomating Inequalityの内容が出てきていた。

これは個人的つぶやきになるがこういったAI Ethicsの話できる人が周りにいないので話せる人が欲しいなと思ったりした。気になる方はぜひ本の方も読んでみてください!語りましょう!