データ収集とSNS

·
公開:2024/11/15

簡易的にまとめただけ

AIのデータ収集とSNSにおいて素人がわかる範囲で調べたものです。

自分用なので全部のサービスの規約を抜粋して詳しく書いたりとかはしません。気になった人は自分で調べてみてください。あくまで私が読み取ったことを書いているだけなので、鵜呑みにせずに一次情報源であるプラットフォームなどの利用規約を自分で閲覧することを推奨します。

先に結論を書いてしまいます。これはあくまで主観でしかないので、色々見たり調べたうえで、個々人が「どのサービス」を「どう利用」するかだと思います。これを機にSNSを辞めるというのも選択肢としてなしではないと思います。

雑結論

・イーロン・マスクが嫌いだったら他のSNSに逃げよう。Twitterを使っている時点で、規約に同意してるのと同じ意味になるのでそれが嫌な場合は他のSNSを利用したほうが良いと思います。「”Twitterに残る”という自分の振る舞い=AI学習のために自分の作品が学習データ対象として収集されることを容認している」と思われるのが嫌なイラストレーターや絵描きの人がBlueskyへ移住したと私自身は思っています。

・Twitterが投稿されたコンテンツをAI利用する(今までもされてきていたらしい)のは避けられないので、Twitterに直接投稿したい且つ学習データ対象になりたくない場合は対策必須。

・他のSNS(特に海外製)のものでもAI学習のためのデータ収集はされる可能性は十分ある。これを機にプラットフォーム問わず対策をしてみてもいいかも!対策をするもしないもそれは個人の自由なのでそこは自己判断で。ウォーターマークやGlazeも意味ないという人がいますが、それでもやらないよりはやったほうが良いかなと思っています。

・AIから学習されることが本当に嫌な人は日本初のSNSに移動するのがいいかもしれない。大きいプラットフォームはどこもデータ収集をしていると思ったほうが良い気がします。

以下つらつらかきました


データ収集

AIに学習させるうえで欠かせないのがデータ収集のようです。人間で言う教材みたいなものなのかな。繰り返しデータ学習させることで、育てていくみたいですね。そのためにサイトを巡回してデータを集める必要があるらしいです。

そのうちの1つがスクレイピングと呼ばれるもの。それ以外にも色々あるとは思うんですが、まずでてきたのがこれでした。

スクレイピングはデータの抽出手法の一種です。「こすること」「けずること」を意味する「scraping」に由来する言葉で、データスクレイピング、Webに特化するとWebスクレイピングなどとも呼ばれます。

スクレイピングは、Webやデータベース上のデータから不要な部分を削ったり、必要な部分を抽出したりして、データを汎用的な形式に整形することを表します。抽出したデータは、市場調査や価格監視などビジネスに役立てることができたり、ビッグデータとしてAIの分析データとして使うこともできます。

スクレイピングがそのサイトでできるか確認する方法を調べてみました。

ウェブサイトのルートディレクトリに配置されている "robots.txt" ファイルを確認して、ウェブスクレイピングが許可されているかどうかを調べることができます。"robots.txt" ファイルは、ウェブサイトのインデックス作成とクローリングを制御するために使用されます。以下の方法でrobots.txtファイルにアクセスできます。

上記の方法を使って

  1. X(Twitter)

  2. Bluesky

  3. Xfolio

  4. pixiv

  5. ポイピク

  6. Privatter

  7. Privatter+

  8. fusetter(ふせったー)

  9. タイッツー

  10. note

  11. Notion

  12. Tumblr

  13. Instagram

  14. 翡翠Sings

上記のサイトがスクレイピングを許可しているか試してみました。Misskeyは運営されてるサーバーによる感じがしたので、除外しています。

結果、Blueskyのみスクレイピングを許可しており、APIに誘導していることを確認しました。他は大体許可しないになってる感じです。(恐らく!)このへんは完璧には理解してないので、興味ある人は自分で調べてみてください。そしてBlueskyは許可している上に情報を纏めて取得したいならAPIのほうがいいよ!と誘導している感じ。

APIは「Application Programming Interface」の略語です。3つの単語には、それぞれ次のような意味があります。

  • アプリケーション: パソコンやスマホの中で動くソフトのこと

  • プログラミング: プログラミング言語を利用して、パソコンやスマホに実行させる指示を出すこと

  • インタフェース:ITの分野では、機器をつなぐ接続部分や接触する箇所のこと

つまりAPIとは、「2つのアプリケーションやソフトウェア同士が情報をやり取りする際に使用される、プログラミング上の窓口」と理解しておくと分かりやすいかもしれません。

APIとはこういうやつらしいです。参考事例↓

webサイト上でよく使われているのは、特定のハッシュタグを使用されているツイートを検索しそれをサイトに掲載するものです。 キャンペーンなどで特定のハッシュタグを指定しユーザーにツイートをしてもらい、「Twitter API」で収集・加工をすることでユーザーの声などをwebサイト上に反映することができます。

APIにアクセスすると外部からツイートの投稿や削除ができたりもするみたいなので、botとかスケジュール投稿もできるのかな恐らく。便利なものなんだと思います。

TwitterはAPIを2023年2月に有償化しています。無料プランだと取得できるツイートがかなり絞られるみたいです。BlueskyはAPIに特に有償などの制限がないので、データを取り出せるというところから見ると、Twitterより外部からデータを収集されるリスクは高い印象を受けます。

そして今回騒がれているTwitterの規約関係は、2023年の9月にはプライバシーポリシーに記載されていたもののよう。利用規約に今回明文化したために、今後機械学習のデータに利用される!と誤解されたみたいです。

そもそもユーザーは認識していなかったけれど、既に学習はされていたことは否めない感じがありますよね。気になって上記のサービスの利用規約を著作権周辺で検索をかけてざっくり調べました。

Twitterは言わずもがなですが、Instagramも明記はしていないものの、学習データとして投稿したものが使われる可能性はあると判断しました。

Instagramの利用規約の一部抜粋↓

  • 利用者のコンテンツについて、その権利が弊社に帰属すると弊社が主張することはありませんが、利用者はコンテンツを使用するためのライセンスを弊社に付与します。

    (中略)弊社は、利用者がサービス上で、またはサービスを通じて投稿するいかなる利用者のコンテンツについても、その所有権を主張しません。ただし、弊社はサービスを提供するために、利用者から一定の法的許可(一般的に「ライセンス」と呼ばれる)を得る必要があります。利用者がサービス上で、またはサービスに関連して、知的財産権の対象となっているコンテンツ(写真や動画など)をシェア、投稿またはアップロードする場合、利用者は、弊社が(利用者のプライバシー設定およびアプリ設定に沿って)利用者のコンテンツをホスト、使用、配信、変更、実行、複製、公演、公開または翻訳し、またその派生作品を作成できる、非独占的、使用料なしの、譲渡可能、サブライセンス可能な、全世界を対象としたライセンスを弊社に付与するものとします。

Tumblr↓

すでに AIクローラーがTumblrからコンテンツを収集することを阻止しており、今後も、提携先を除いてそうしていくつもりです。

私たちはTumblrユーザーを代表し、皆さんのコンテンツがどのように使用されるかについてデーターの保護が確実に行われるようにしたいと考えています。 私たちはパートナーがそれらの決定を尊重するよう努めています。

これは規約じゃなくて投稿文ですが、多分大丈夫そうかなと思う。

他の日本製のサービスであるXfoliopixivポイピクPrivatterPrivatter+fusetter(ふせったー)タイッツーnote翡翠Sings辺りはユーザーが投稿したものはユーザーに権利を帰属しますって書いてあったはず。Xfolioに関しては規約に明確に生成AIで作成されたコンテンツの投稿禁止がきっちり書かれてました。禁止事項として書かれてたのはびっくり。

第18条 禁止行為より抜粋↓

AI等の技術による機械的な方法により生成されたコンテンツが含まれる作品等を投稿する行為、又は当該投稿を助長、誘導する行為

Notionはサービス提供のためにライセンスを使いたいみたいなことを書いてありました。でも絵の所有権はユーザーにあるって書いてありました確か。

Blueskyのガイドラインを翻訳を通して読みましたがなんとも…生成AIやデータ収集に関することとかデータ収集に関することは明確に書かれていませんでした。ユーザーコンテンツに関しては「Bluesky Social、ATプロトコル、および今後提供するサービスを開発、提供、改善するためにユーザーコンテンツを使用すること。」(DeepL翻訳)で確認できました。

現状AI対策らしきことをしているという情報も聞かないので、そこは個々人がどう思うかなのかなと思います。ただそれを抜きにしても広告が出ないし旧き良きTwitterみたいな感じではあるとは思うので(分散型SNSのためそこはTwitterとは違いますが)今のTwitterより快適な気はします。鍵垢が作れないのと、ブロ解ができないのと、ブロックリストが公開されることを除けば良いかなと思います。

情報が色々溢れてて私も書いてるけどこれ正しいのか?となっています。

おわりに

色々書きましたが、

・イラストなどの作品のAI対策の有無(ウォーターマーク、サイン、Glazeやemamoriの利用など)

・どのSNSを利用するか

などは結局それぞれが情報や規約に目を通して、どう判断するかによるかなと思いました。法整備が進まない限り悪意を持ってAIに学習させる人は根本的に絶てないかなと思います…

私自身はまだ迷っていますが、Xfolioやnoteなどブログっぽいサービスをメインにしてもいいかな~とか色々考えています。あとPrivatter+も使っていきたいかなと。Twitterも勿論嫌いではないけれど、最近はリアルタイムというところに重きを置かなくなってきているので…文字数制限なく、あったことを日記のように書くほうが自分の性質的に向いているかなとか…このしずかなインターネットもまあまあ気に入っているのでここでもいい気持ちはちょっとある。

何を思いどう動くかは人それぞれだと思いますが、良いインターネット生活を!

@boil_the_moon
Twitterには書けない備忘録