ソーシャルメディア論

ソーシャルメディア論 -行動データが解き明かす人間社会と心理- 土方嘉徳 2020, サイエンス社 駒場図書館


[[ 社会情報学 ]]の一部としてのソーシャルメディア論の概観を示す。数式は少なめ。後半になると筆者の研究からの引用が多くなった気がする。

  • [[ ソーシャルコンピューティング ]]:社会的分析の成果を技術的に応用する
  • 分類
    • 時代分類
      • 89-94 Webの誕生:ハイパーリンク、TCP/IP
      • 95-99 商用利用:Google, Infoseek, eBay
        • Win95の普及
      • 00-06 Web2.0:Wikipedia, Yelpなど…ユーザが作るサイト(UGC), SNSの誕生、双方向性の拡大
      • 07-14 ソーシャルメディアの普及:Foursquare, Uber, Pinterest
      • 15-19 ポストWeb2.0:Instagram, Snapchat, TikTok
        • モバイルファースト
        • 動画主体→コンテンツ制作コストの増加
          • クリエイターとオーディエンスの二極化がある=双方向性の衰退
          • YouTuberの職業化
          • TikTokでは15s以内として敷居を下げてはいる
    • 形態分類
      • 同期型
      • 非同期型
    • 暫定的定義
      • ソーシャルメディアとは、インターネットを用いて、個人間や個人と組織間、コミュニティ内の複数人の間において、文章が画像、動画などのコンテンツやプロフィールを共有し、またそれを介して、コミュニケーションを行うことができる媒体である。

      • 協調型Webサービスは、インターネット上で複数のユーザ同士が、明示的にまたは非明示的に、また能動的にまたは受動的に協調しあうことで、ユーザ全体に高い付加価値を提供するサービスである。

        • ソーシャルメディアに加え、暗黙的に他人の情報を使い、社会性をもつサービスも含まれる
        • サジェストなど
    • 協調型Webサービスの分類
      • 検索エンジン
      • BBS
      • 口コミサイト
      • ブログ
      • Wiki
        • Wikipediaはすでにブリタニカ百科事典と同等に信頼できる(との研究)
      • ソーシャルブックマーク
        • [[ フォークソノミー ]] folksonomy, [[ ソーシャルタギング ]] social tagging
      • 画像・動画共有サービス
      • SNS
        • SNS $\in$ ソーシャルメディア
          • 友達関係の明示:友達登録(相互承認が必要)・フォロー(承認不要)
          • 投稿主の明示:「誰」の重視
            • 口コミサイトではそこまで重視されない
      • マイクロブログ
        • タイムラインにより「流速」が生じる。それゆえに、すべての投稿を精読されることを期待せず、(実世界のささいな出来事でも)気軽に投稿できる。
      • キュレーションメディア:WELQ事件。剽窃、SEO対策。
      • レコメンデーションサービス
        • [[ 協調フィルタリング ]]という手法
  • 集合知とWeb2.0
    • 集合知
      • 2つの集合知: [[ スロウィッキー ]]による
        • 群衆の英知 wisdom of crowds : 多数の一般人の判断が、一人の専門家の判断に勝る
          • 例:牛の見た目から体重を推定してもらって平均を取ったら、実際の値にほとんど一致
          • 例:選挙結果で賭けをしてもらうと、そのときの予測が世論調査よりも正確
            • 自分がどこに入れるか答える世論調査と、世間がどこに入れるか答える(自分に関係ない)予測による違い(群衆の英知ではない?)
          • 例:スペースシャトルが爆発して、製造4社のうち1社の株が暴落。結果その1社の部品に欠陥があった。
          • 反例:集団リンチ、バブル、「衆愚政治」
        • 集団的知性 collective intelligence : 個体が集まった時に意図せず生じる、マクロな振る舞い・意思決定が優れている
          • 蜂のコロニー(個々の働き蜂は特に考えていないが、多数が協調するとうまくいく)
          • 経済学、生物学でも多用
          • 群衆の英知を含む(←?)
      • 群衆の英知が生じるには?
        • 条件
          • 多様性:多様な人々にきく
            • 一様な集団は集団思考に陥りやすい(多様性のなさが独立性・分散性を阻害する)
          • 分散性:個々の回答に介入しない
            • ローレンツの実験
              • (牛の体重など)数値の推定をグループで何度かさせて、1回終わるたびにグループの予測平均を見せる・見せない。見せた群でも見せない群でも正解からのズレには差がない。
              • 一方で、平均を見せた群では徐々に予測の分散が小さくなる。他人の情報で誤った方向に回答が誘導されたかもしれない( [[ 情報カスケード ]])。
              • 正確性は変わらないのに、平均を見せた群では予測にも自信を持っている。
            • 経済学: [[ 方法論的個人主義 ]]
          • 独立性:人の意見を聞かないでいい(権威・リーダーがない)
          • 集約可能性:多様な意見からいかに一つの結論を導出するか
            • 平均でうまくいくこともあるし、いかないこともある
            • [[ 一般意志 ]]
    • Web2.0:集合知を活用したWebサービス
      • プラットフォーム化
      • データ指向・集合知
        • (専門用語による)タクソノミーからフォークソノミーへ
        • 情報の完全性から速報性へ
      • 動的な・ユーザによるコンテンツ生成
      • サービス指向
        • パッケージソフトから、ダウンロードが不要なWebブラウザ上でのサービス提供へ
        • 現在はネイティブアプリ専用のサービスもある。逆行傾向?
      • 簡易なプログラム実装
        • API, マッシュアップ
        • Web上の規格化されたプロトコル(RESTやSOAP)

          • RESTはプロトコルではないと思うが、似たような方法論を採用するようになったのはたしか
        • スマートフォンのOS上での専用アプリケーションとして提供されることが多くなっている。そのため、独自に実装したコードも多くなっている。

          • ほんまか?
      • マルチプラットフォーム
        • スマートフォンアプリでは阻害された
          • まあFlutterとかあるけど
  • 情報検索
    • 転置ファイル:文書中に登場する単語を行列形式で保存する
    • [[ PageRank ]]
      • 仮定
        • リンクとページそれぞれがスコアを持っている
        • 重要なページは多くのページからリンクされている
        • 重要なページからのリンクは価値が高い
        • 一つのページから多くのページにリンクを張るほど、リンクの価値は低くなる
      • 協調性:他のウェブページからのリンクを張る行為の裏にはそのページの作成者がいて、群衆(他のページ)の判断にあるページの質の判断を委ねている
  • 情報推薦
    • 一時的個人化 ephemeral personalization
      • 「この商品を買った人は、この商品も買っています」

      • 相関ルール(マーケットバスケット分析):複数のユーザの購買行動から提示
    • 永続的個人化 persistent personalization
      • そのシーン(表示している商品など)にかかわらず、好きそうな情報を提示する
      • コンテンツに基づくフィルタリング
        • ユーザのプロファイルと、コンテンツのモデルを照合
          • プロファイル・モデルは両者ともベクトルとして表現できる
        • ベクトル空間モデル
          • プロファイルとモデルをベクトルで表現して、ベクトル空間上での距離を類似度とする
            • テキストであれば、ベクトルの成分は各単語の出現頻度(を重み付けしたもの)
          • 重み付けの方法の一つとして、 [[ tf-idf ]]がある
            • tf = term frequency = そのテキスト中の単語頻度
            • idf = inverse document frequency = その単語が出てくるテキスト頻度(テキストの量)の逆数
              • テキスト集合が不変であれば、単語にのみ依存
            • 単語 $w$, テキスト(アイテム)$i$ について
              • $m_w = (w \; が出現するアイテム数)$
              • $TF_{iw} = (i \; における \; w \; の出現頻度)$
              • $IDF_w = \log\dfrac{M}{m_w} (= \log\dfrac{m_w}{M}^{-1})$
                • 対数を使ってカーブをゆるやかに
              • tf-idf = $TF_{iw} \cdot IDF_{iw}$
              • “the” や “is” はtfが高く、idfが低くなる
              • ウェーブレット変換についての文章であれば、”wavelet”はtfが高い。一般に”wavelet”のidfは大きい(ウェーブレット変換を扱う文章はすべての文章の中のごく小さい集合)。
          • あるアイテム $k \; (1 \leq k \leq N)$ のベクトルを $\vec{i_k}$, あるユーザ $u$ が評価 $R_u(k)$ を与えたとして
            • ユーザベクトル $\vec{u} = \dfrac{1}{N} \sum_k : R_u(k) \; \vec {i_k}$
            • 類似度 $s_{uk} = \mathrm{cos}(\vec{u}, \vec{i_k}) = \dfrac{\vec{u}\cdot\vec{i_k}}{ \vec{u}   \vec{i_k} }$
          • [[ 適合性フィードバック ]]:$n$個の新たな評価の集合$U$に対してユーザベクトルを更新
            • 更新後のユーザベクトル $\vec{u’} = \alpha\vec{u} + \dfrac{\beta}{n} \sum_{k \in U} R_u(k) \; \vec{i_k}$
              • $\alpha, \beta$ はどうやって決定?
              • $\alpha = \beta = 0.5$として、$\vec{u}$と($\vec{i_k}$の平均)の平均をとってはいけない?
                • $\beta$を大きくして、最近の嗜好を重視している?
      • コミュニティに基づくフィルタリング(協調フィルタリング)
        • 他のユーザが与えた評価から推薦をつくる
        • メモリベース方式
          • 評価値行列:評価値行列同じユーザの評価が同じ行に、同じ商品の評価が同じ列に並ぶようにする
          • ユーザベース方式
            • 手順
              • 行ベクトル同士の類似度を計算して、対象のユーザaに好みの近いユーザを選ぶ
                • コサイン類似度/ピアソンの積率相関係数の上位N人など
              • それらのユーザによるある商品Aへの評価を、類似度によって重み付けしたものが、ユーザaの商品Aに対する予測評価値となる
            • ユーザ同士の類似度を毎回計算するのでつらい
          • アイテムベース方式
            • 手順
              • 列ベクトル同士(商品同士)の類似度を求めておく
                • ユーザの嗜好は移り変わるが、アイテムの性質や評判はさほど変化しない
        • モデルベース方式
  • ネットワーク
    • 現実社会のネットワーク
      • スケールフリー性:次数の分散→ハブの存在
        • 友達の少ない人がたくさんと、友達の多い人(ハブ)が少数
        • 友人の数を横にとって、その頻度を縦にとると [[ べき分布 ]] $y=C/x^\gamma$ になる
          • $\gamma$: べき係数(対数を取った時の直線の傾き)
            • 実世界ネットワークでは2~3ぐらい
      • スモールワールド性:任意の二点間の距離が、グラフの規模の割に小さくなる
        • [[ 6次の隔たり ]]
        • 平均頂点間距離、直径、密度($N$頂点グラフにエッジが $E$ 本あるとして、 $2E/N(N-1)$)
      • クラスタ性:ノード同士が密接に結合したサブグラフが存在する
        • 仲良しグループ
        • スモールワールド性に含まれることも多い
        • クラスタ係数で評価
          • 「自分の知り合いのうち2人を選んで、彼らも直接の知り合いである割合」
          • $C = \dfrac{1}{n} \sum_i^n \dfrac{T_i}{k_i(k_i-1)/2}$
            • $T_i$ : $i$ の知り合いのうち、直接の知り合いである2人の組み合わせの数
            • $k_i$ : $i$の知り合いの人数
        • 次数相関
          • 次数の近い者同士がつながりやすい
    • ノードの中心性評価:どれくらい中心的な役割を果たしているか?
      • 次数中心性:次数が大きい
      • 近接中心性:中心に近い=どのノードからも少ないステップで到達できる
        • ${Cls}i = \dfrac{N-1}{\sum{j\ne i}d(i,j)}$(平均ステップの逆数)
      • 媒介中心性:2つのノードを(最短で)つなぐ上で通らなければならない
        • クリティカルパスの一部になりやすい場所
        • ${Btw}i = \dfrac{\sum{s \ne i}\sum_{t \ne s,i} L_{st}^i / L_{st} }{(N-1)(N-2)/2}$
          • $L_{st}$ : $s,t$間の最短経路の数
          • $L_{st}^i$ : $s,t$間の最短経路で、$i$を通る経路の数
    • ネットワーク生成モデル
      • WSモデル
      • BAモデル
      • CNNモデル
  • 社会分析
    • 会話ネットワーク
      • Leskovic, Horvitz:MSNメッセンジャー
        • 平均頂点間距離 6.6
        • 99.9%のユーザが最大の接続数を持つ部分グラフに接続されていた
          • 隔離されたユーザグループが生じにくい
    • 相互承認型
      • Backstrom:Facebook
        • 平均頂点間距離 4~5
    • 有向グラフ:Twitter
      • 非対称性
        • ほとんどの関係が一方通行
          • 「フォロバ22.1% RT != endorsement」
          • 社会ネットワーク(SNS)というより、興味ネットワーク(マイクロブログ)
      • 平均頂点間距離 4.12
        • 多くのフォロワーをもつユーザの存在により、有向グラフにもかかわらず平均頂点間距離が小さくなった(←どゆこと?)
      • 次数相関
        • 鍵垢?
        • 相互フォローの割合が小さいのに、同質性を維持している
    • 社会イベントの検出;バースト検出
      • Kleinbergのバースト検出アルゴリズム(連続型と列挙型のうち、列挙型を説明)
        • 時間窓 $t$ (窓は$n$個あるとする)ですべてのイベントが $d_t$ 回、うち対象イベントが $r_t$ 回発生した
        • $p_0 = \sum_{t=1}^n{r_t/d_t}$ : 非バースト状態で対象イベントが生じる確率=全体を通して対象イベントが生じる平均確率
        • $p_1$ : バースト状態で対象イベントが生じる確率(これを越えると、バースト状態と判定する)
          • $p_1 = sp_0$ とする($s$は感度)
        • 状態コスト:$\sigma (i, r_t, d_t) = - \log ({}{d_t}\mathrm{C}{r_t} p_i^{r_t} (1-p_i)^{d_t-r_t})$
          • 二項分布を作って、状態$i$(0 or 1)が成り立ちそうなら確率が大きいので、$- \log$でコストは小さくなる
          • 妥当性の評価
        • 遷移コスト:$\tau (i_t, i_{t+1}) = (i_{t+1}-i_t)\gamma \log n$
          • 状態遷移を制限する
          • $\gamma$ :係数
          • バースト状態の立ち上がりに対してペナルティを課す
        • それぞれの窓に対して、状態 $i_t$ を割り当ててベクトル $\vec{i}$ をつくる
        • このとき、全体のコストは $C(\vec{i}) = \sum_{t=0}^{n-1}\tau(i_t, i_{t+1}) + \sum_{t=1}^n \sigma(i_t, r_t, d_t)$
          • それぞれの $\vec i$ について計算して、最小のコストを持つものを結果の状態ベクトルとする
  • ユーザ心理
    • 投稿の目的
      • Naaman
        • 分類
          • 情報共有 information sharing
          • 自己宣伝 self promotion
          • 意見表明 opinions
          • つぶやき random thoughts
          • 今の自分 me now
          • 質問
          • 自分の状況更新 presense maintenance
            • me now との違いは?
          • 自分の小話
          • 他人の小話
        • 斜体が多い。とくにme nowがいちばん多い(4割)。
        • meformer (me now)と informer (情報共有が多い) の区別
      • Rossonら+吉田・土方
        • 友達関係の維持
        • 情報公開:面白いことをシェアするため
        • 情報獲得:役立つ情報のため
        • 助けや意見を得るため
        • ストレス解消
        • 自己宣伝
      • 文化間の利用目的の差
    • 感情
      • Facebook, Kramerら
        • フィードを操作して、ポジティブ(ネガティブ)な投稿を多く表示すると、そのユーザもポジティブ(ネガティブ)な投稿を多くするようになった
      • Facebook, Covielloら
        • 天気と投稿の感情の相関(雨ならネガティブ)
        • 友達の投稿との感情の相関(情動伝染)
    • 性格
    • うつ傾向
      • Choudhury: うつのユーザは投稿数が少ない、一人称を使いやすく、三人称をあまり使わない
    • 妬み
      • 社会比較による妬み(自分と他人を比較して生じる、不快な感情)
      • Panger: FacebookユーザはTwitterユーザよりも社会比較をしやすい
        • 状況が自分に似た相手に妬みを感じやすいことが知られている
      • 土方:しかし、Twitterの方が妬みが行動・発言に出やすい
    • 印象操作
      • 自己呈示:印象に影響をあたえるために意識的に行う振る舞い
      • 印象操作:自己呈示などを通して、印象に影響を与えようとする意識的・非意識的行為
      • 自己呈示に使える物理表現の差
        • 実世界:身振り、手振り、容姿、声のトーン、口調+同期コミュニケーション
        • ネット:文体、絵文字、顔文字、画像+非同期
      • 文脈崩壊:投稿が誰に見られているかわからず、誰に見せるかも制御できない状態(自己呈示が難しい状態)
        • Twitterで生じやすい
      • 冨永・土方:プロフィール画像の選択
        • 分類
          • 本人の顔:4番目
          • 本人の似顔絵
          • 本人だが顔以外
          • 本人と誰かが写っている:3番目
          • 他人の写真:2番目(ファンとか)
          • 文字だけ
          • ロゴ
          • オタク(美少年とか): 最多(ツイートも多い)
          • キャラクター(アンパンマンとか、一般的なやつ)
          • 動物
          • モノ
          • 自然
          • デフォルト
  • 問題点
    • フィルターバブル、
    • エコーチャンバーによる集団極性化、集団思考
      • 閉じたコミュニティで密なやりとりがなされることで、群衆の英知が働かなくなる
      • 極端なことをいうといいねがもらえたり拡散されたりする(炎上商法)効果もある
    • 脱抑制 disinhibition :匿名性によるマナーからの逸脱
      • 「バレなきゃ犯罪じゃないんですよ」
    • 情報断片化:tiktok, twitter, shorts
    • 忘れられる権利

Backlinks