ソーシャルメディア論
ソーシャルメディア論 -行動データが解き明かす人間社会と心理- 土方嘉徳 2020, サイエンス社 駒場図書館
[[ 社会情報学 ]]の一部としてのソーシャルメディア論の概観を示す。数式は少なめ。後半になると筆者の研究からの引用が多くなった気がする。
- [[ ソーシャルコンピューティング ]]:社会的分析の成果を技術的に応用する
- 分類
- 時代分類
- 89-94 Webの誕生:ハイパーリンク、TCP/IP
- 95-99 商用利用:Google, Infoseek, eBay
- Win95の普及
- 00-06 Web2.0:Wikipedia, Yelpなど…ユーザが作るサイト(UGC), SNSの誕生、双方向性の拡大
- 07-14 ソーシャルメディアの普及:Foursquare, Uber, Pinterest
- 若い男性から幅広い層へ
- インターネットは言葉をどう変えたかの「新インターネット人」へ
- インフルエンサーの誕生
- 若い男性から幅広い層へ
- 15-19 ポストWeb2.0:Instagram, Snapchat, TikTok
- モバイルファースト
- 動画主体→コンテンツ制作コストの増加
- クリエイターとオーディエンスの二極化がある=双方向性の衰退
- YouTuberの職業化
- TikTokでは15s以内として敷居を下げてはいる
- 形態分類
- 同期型
- 非同期型
- 暫定的定義
-
ソーシャルメディアとは、インターネットを用いて、個人間や個人と組織間、コミュニティ内の複数人の間において、文章が画像、動画などのコンテンツやプロフィールを共有し、またそれを介して、コミュニケーションを行うことができる媒体である。
-
協調型Webサービスは、インターネット上で複数のユーザ同士が、明示的にまたは非明示的に、また能動的にまたは受動的に協調しあうことで、ユーザ全体に高い付加価値を提供するサービスである。
- ソーシャルメディアに加え、暗黙的に他人の情報を使い、社会性をもつサービスも含まれる
- サジェストなど
-
- 協調型Webサービスの分類
- 検索エンジン
- BBS
- 口コミサイト
- ブログ
- Wiki
- Wikipediaはすでにブリタニカ百科事典と同等に信頼できる(との研究)
- ソーシャルブックマーク
- [[ フォークソノミー ]] folksonomy, [[ ソーシャルタギング ]] social tagging
- 画像・動画共有サービス
- SNS
- SNS $\in$ ソーシャルメディア
- 友達関係の明示:友達登録(相互承認が必要)・フォロー(承認不要)
- 投稿主の明示:「誰」の重視
- 口コミサイトではそこまで重視されない
- SNS $\in$ ソーシャルメディア
- マイクロブログ
- タイムラインにより「流速」が生じる。それゆえに、すべての投稿を精読されることを期待せず、(実世界のささいな出来事でも)気軽に投稿できる。
- キュレーションメディア:WELQ事件。剽窃、SEO対策。
- レコメンデーションサービス
- [[ 協調フィルタリング ]]という手法
- 時代分類
- 集合知とWeb2.0
- 集合知
- 2つの集合知: [[ スロウィッキー ]]による
- 群衆の英知 wisdom of crowds : 多数の一般人の判断が、一人の専門家の判断に勝る
- 例:牛の見た目から体重を推定してもらって平均を取ったら、実際の値にほとんど一致
- 例:選挙結果で賭けをしてもらうと、そのときの予測が世論調査よりも正確
- 自分がどこに入れるか答える世論調査と、世間がどこに入れるか答える(自分に関係ない)予測による違い(群衆の英知ではない?)
- 例:スペースシャトルが爆発して、製造4社のうち1社の株が暴落。結果その1社の部品に欠陥があった。
- 反例:集団リンチ、バブル、「衆愚政治」
- 集団的知性 collective intelligence : 個体が集まった時に意図せず生じる、マクロな振る舞い・意思決定が優れている
- 蜂のコロニー(個々の働き蜂は特に考えていないが、多数が協調するとうまくいく)
- 経済学、生物学でも多用
- 群衆の英知を含む(←?)
- 群衆の英知 wisdom of crowds : 多数の一般人の判断が、一人の専門家の判断に勝る
- 群衆の英知が生じるには?
- 条件
- 多様性:多様な人々にきく
- 一様な集団は集団思考に陥りやすい(多様性のなさが独立性・分散性を阻害する)
- 分散性:個々の回答に介入しない
- ローレンツの実験
- (牛の体重など)数値の推定をグループで何度かさせて、1回終わるたびにグループの予測平均を見せる・見せない。見せた群でも見せない群でも正解からのズレには差がない。
- 一方で、平均を見せた群では徐々に予測の分散が小さくなる。他人の情報で誤った方向に回答が誘導されたかもしれない( [[ 情報カスケード ]])。
- 正確性は変わらないのに、平均を見せた群では予測にも自信を持っている。
- 経済学: [[ 方法論的個人主義 ]]
- ローレンツの実験
- 独立性:人の意見を聞かないでいい(権威・リーダーがない)
- 集約可能性:多様な意見からいかに一つの結論を導出するか
- 平均でうまくいくこともあるし、いかないこともある
- [[ 一般意志 ]]…
- 多様性:多様な人々にきく
- 条件
- 2つの集合知: [[ スロウィッキー ]]による
- Web2.0:集合知を活用したWebサービス
- プラットフォーム化
- データ指向・集合知
- (専門用語による)タクソノミーからフォークソノミーへ
- 情報の完全性から速報性へ
- 動的な・ユーザによるコンテンツ生成
- サービス指向
- パッケージソフトから、ダウンロードが不要なWebブラウザ上でのサービス提供へ
- 現在はネイティブアプリ専用のサービスもある。逆行傾向?
- 簡易なプログラム実装
- API, マッシュアップ
-
Web上の規格化されたプロトコル(RESTやSOAP)
- RESTはプロトコルではないと思うが、似たような方法論を採用するようになったのはたしか
-
スマートフォンのOS上での専用アプリケーションとして提供されることが多くなっている。そのため、独自に実装したコードも多くなっている。
- ほんまか?
- マルチプラットフォーム
- スマートフォンアプリでは阻害された
- まあFlutterとかあるけど
- スマートフォンアプリでは阻害された
- 集合知
- 情報検索
- 転置ファイル:文書中に登場する単語を行列形式で保存する
- [[ PageRank ]]
- 仮定
- リンクとページそれぞれがスコアを持っている
- 重要なページは多くのページからリンクされている
- 重要なページからのリンクは価値が高い
- 一つのページから多くのページにリンクを張るほど、リンクの価値は低くなる
- 協調性:他のウェブページからのリンクを張る行為の裏にはそのページの作成者がいて、群衆(他のページ)の判断にあるページの質の判断を委ねている
- 仮定
- 情報推薦
- 一時的個人化 ephemeral personalization
-
「この商品を買った人は、この商品も買っています」
- 相関ルール(マーケットバスケット分析):複数のユーザの購買行動から提示
-
- 永続的個人化 persistent personalization
- そのシーン(表示している商品など)にかかわらず、好きそうな情報を提示する
- コンテンツに基づくフィルタリング
- ユーザのプロファイルと、コンテンツのモデルを照合
- プロファイル・モデルは両者ともベクトルとして表現できる
- ベクトル空間モデル
- プロファイルとモデルをベクトルで表現して、ベクトル空間上での距離を類似度とする
- テキストであれば、ベクトルの成分は各単語の出現頻度(を重み付けしたもの)
- 重み付けの方法の一つとして、 [[ tf-idf ]]がある
- tf = term frequency = そのテキスト中の単語頻度
- idf = inverse document frequency = その単語が出てくるテキスト頻度(テキストの量)の逆数
- テキスト集合が不変であれば、単語にのみ依存
- 単語 $w$, テキスト(アイテム)$i$ について
- $m_w = (w \; が出現するアイテム数)$
- $TF_{iw} = (i \; における \; w \; の出現頻度)$
- $IDF_w = \log\dfrac{M}{m_w} (= \log\dfrac{m_w}{M}^{-1})$
- 対数を使ってカーブをゆるやかに
- tf-idf = $TF_{iw} \cdot IDF_{iw}$
- 例
- “the” や “is” はtfが高く、idfが低くなる
- ウェーブレット変換についての文章であれば、”wavelet”はtfが高い。一般に”wavelet”のidfは大きい(ウェーブレット変換を扱う文章はすべての文章の中のごく小さい集合)。
- あるアイテム $k \; (1 \leq k \leq N)$ のベクトルを $\vec{i_k}$, あるユーザ $u$ が評価 $R_u(k)$ を与えたとして
- ユーザベクトル $\vec{u} = \dfrac{1}{N} \sum_k : R_u(k) \; \vec {i_k}$
-
類似度 $s_{uk} = \mathrm{cos}(\vec{u}, \vec{i_k}) = \dfrac{\vec{u}\cdot\vec{i_k}}{ \vec{u} \vec{i_k} }$
- [[ 適合性フィードバック ]]:$n$個の新たな評価の集合$U$に対してユーザベクトルを更新
- 更新後のユーザベクトル $\vec{u’} = \alpha\vec{u} + \dfrac{\beta}{n} \sum_{k \in U} R_u(k) \; \vec{i_k}$
- $\alpha, \beta$ はどうやって決定?
- $\alpha = \beta = 0.5$として、$\vec{u}$と($\vec{i_k}$の平均)の平均をとってはいけない?
- $\beta$を大きくして、最近の嗜好を重視している?
- 更新後のユーザベクトル $\vec{u’} = \alpha\vec{u} + \dfrac{\beta}{n} \sum_{k \in U} R_u(k) \; \vec{i_k}$
- プロファイルとモデルをベクトルで表現して、ベクトル空間上での距離を類似度とする
- ユーザのプロファイルと、コンテンツのモデルを照合
- コミュニティに基づくフィルタリング(協調フィルタリング)
- 他のユーザが与えた評価から推薦をつくる
- メモリベース方式
- 評価値行列:評価値行列同じユーザの評価が同じ行に、同じ商品の評価が同じ列に並ぶようにする
- ユーザベース方式
- 手順
- 行ベクトル同士の類似度を計算して、対象のユーザaに好みの近いユーザを選ぶ
- コサイン類似度/ピアソンの積率相関係数の上位N人など
- それらのユーザによるある商品Aへの評価を、類似度によって重み付けしたものが、ユーザaの商品Aに対する予測評価値となる
- 行ベクトル同士の類似度を計算して、対象のユーザaに好みの近いユーザを選ぶ
- ユーザ同士の類似度を毎回計算するのでつらい
- 手順
- アイテムベース方式
- 手順
- 列ベクトル同士(商品同士)の類似度を求めておく
- ユーザの嗜好は移り変わるが、アイテムの性質や評判はさほど変化しない
- 列ベクトル同士(商品同士)の類似度を求めておく
- 手順
- モデルベース方式
- 一時的個人化 ephemeral personalization
- ネットワーク
- 現実社会のネットワーク
- スケールフリー性:次数の分散→ハブの存在
- 友達の少ない人がたくさんと、友達の多い人(ハブ)が少数
- 友人の数を横にとって、その頻度を縦にとると [[ べき分布 ]] $y=C/x^\gamma$ になる
- $\gamma$: べき係数(対数を取った時の直線の傾き)
- 実世界ネットワークでは2~3ぐらい
- $\gamma$: べき係数(対数を取った時の直線の傾き)
- スモールワールド性:任意の二点間の距離が、グラフの規模の割に小さくなる
- [[ 6次の隔たり ]]
- 平均頂点間距離、直径、密度($N$頂点グラフにエッジが $E$ 本あるとして、 $2E/N(N-1)$)
- クラスタ性:ノード同士が密接に結合したサブグラフが存在する
- 仲良しグループ
- スモールワールド性に含まれることも多い
- クラスタ係数で評価
- 「自分の知り合いのうち2人を選んで、彼らも直接の知り合いである割合」
- $C = \dfrac{1}{n} \sum_i^n \dfrac{T_i}{k_i(k_i-1)/2}$
- $T_i$ : $i$ の知り合いのうち、直接の知り合いである2人の組み合わせの数
- $k_i$ : $i$の知り合いの人数
- 次数相関
- 次数の近い者同士がつながりやすい
- スケールフリー性:次数の分散→ハブの存在
- ノードの中心性評価:どれくらい中心的な役割を果たしているか?
- 次数中心性:次数が大きい
- 近接中心性:中心に近い=どのノードからも少ないステップで到達できる
- ${Cls}i = \dfrac{N-1}{\sum{j\ne i}d(i,j)}$(平均ステップの逆数)
- 媒介中心性:2つのノードを(最短で)つなぐ上で通らなければならない
- クリティカルパスの一部になりやすい場所
- ${Btw}i = \dfrac{\sum{s \ne i}\sum_{t \ne s,i} L_{st}^i / L_{st} }{(N-1)(N-2)/2}$
- $L_{st}$ : $s,t$間の最短経路の数
- $L_{st}^i$ : $s,t$間の最短経路で、$i$を通る経路の数
- ネットワーク生成モデル
- WSモデル
- BAモデル
- CNNモデル
- 現実社会のネットワーク
- 社会分析
- 会話ネットワーク
- Leskovic, Horvitz:MSNメッセンジャー
- 平均頂点間距離 6.6
- 99.9%のユーザが最大の接続数を持つ部分グラフに接続されていた
- 隔離されたユーザグループが生じにくい
- Leskovic, Horvitz:MSNメッセンジャー
- 相互承認型
- Backstrom:Facebook
- 平均頂点間距離 4~5
- Backstrom:Facebook
- 有向グラフ:Twitter
- 非対称性
- ほとんどの関係が一方通行
- 「フォロバ22.1% RT != endorsement」
- 社会ネットワーク(SNS)というより、興味ネットワーク(マイクロブログ)
- ほとんどの関係が一方通行
- 平均頂点間距離 4.12
- 多くのフォロワーをもつユーザの存在により、有向グラフにもかかわらず平均頂点間距離が小さくなった(←どゆこと?)
- 次数相関
- 鍵垢?
- 相互フォローの割合が小さいのに、同質性を維持している
- 非対称性
- 社会イベントの検出;バースト検出
- Kleinbergのバースト検出アルゴリズム(連続型と列挙型のうち、列挙型を説明)
- 時間窓 $t$ (窓は$n$個あるとする)ですべてのイベントが $d_t$ 回、うち対象イベントが $r_t$ 回発生した
- $p_0 = \sum_{t=1}^n{r_t/d_t}$ : 非バースト状態で対象イベントが生じる確率=全体を通して対象イベントが生じる平均確率
- $p_1$ : バースト状態で対象イベントが生じる確率(これを越えると、バースト状態と判定する)
- $p_1 = sp_0$ とする($s$は感度)
- 状態コスト:$\sigma (i, r_t, d_t) = - \log ({}{d_t}\mathrm{C}{r_t} p_i^{r_t} (1-p_i)^{d_t-r_t})$
- 二項分布を作って、状態$i$(0 or 1)が成り立ちそうなら確率が大きいので、$- \log$でコストは小さくなる
- 妥当性の評価
- 遷移コスト:$\tau (i_t, i_{t+1}) = (i_{t+1}-i_t)\gamma \log n$
- 状態遷移を制限する
- $\gamma$ :係数
- バースト状態の立ち上がりに対してペナルティを課す
- それぞれの窓に対して、状態 $i_t$ を割り当ててベクトル $\vec{i}$ をつくる
- このとき、全体のコストは $C(\vec{i}) = \sum_{t=0}^{n-1}\tau(i_t, i_{t+1}) + \sum_{t=1}^n \sigma(i_t, r_t, d_t)$
- それぞれの $\vec i$ について計算して、最小のコストを持つものを結果の状態ベクトルとする
- Kleinbergのバースト検出アルゴリズム(連続型と列挙型のうち、列挙型を説明)
- 会話ネットワーク
- ユーザ心理
- 投稿の目的
- Naaman
- 分類
- 情報共有 information sharing
- 自己宣伝 self promotion
- 意見表明 opinions
- つぶやき random thoughts
- 今の自分 me now
- 質問
- 自分の状況更新 presense maintenance
- me now との違いは?
- 自分の小話
- 他人の小話
- 斜体が多い。とくにme nowがいちばん多い(4割)。
- meformer (me now)と informer (情報共有が多い) の区別
- 分類
- Rossonら+吉田・土方
- 友達関係の維持
- 情報公開:面白いことをシェアするため
- 情報獲得:役立つ情報のため
- 助けや意見を得るため
- ストレス解消
- 自己宣伝
- 文化間の利用目的の差
- Naaman
- 感情
- Facebook, Kramerら
- フィードを操作して、ポジティブ(ネガティブ)な投稿を多く表示すると、そのユーザもポジティブ(ネガティブ)な投稿を多くするようになった
- Facebook, Covielloら
- 天気と投稿の感情の相関(雨ならネガティブ)
- 友達の投稿との感情の相関(情動伝染)
- Facebook, Kramerら
- 性格
- うつ傾向
- Choudhury: うつのユーザは投稿数が少ない、一人称を使いやすく、三人称をあまり使わない
- 妬み
- 社会比較による妬み(自分と他人を比較して生じる、不快な感情)
- Panger: FacebookユーザはTwitterユーザよりも社会比較をしやすい
- 状況が自分に似た相手に妬みを感じやすいことが知られている
- 土方:しかし、Twitterの方が妬みが行動・発言に出やすい
- 印象操作
- 自己呈示:印象に影響をあたえるために意識的に行う振る舞い
- 印象操作:自己呈示などを通して、印象に影響を与えようとする意識的・非意識的行為
- 自己呈示に使える物理表現の差
- 実世界:身振り、手振り、容姿、声のトーン、口調+同期コミュニケーション
- ネット:文体、絵文字、顔文字、画像+非同期
- 文脈崩壊:投稿が誰に見られているかわからず、誰に見せるかも制御できない状態(自己呈示が難しい状態)
- Twitterで生じやすい
- 冨永・土方:プロフィール画像の選択
- 分類
- 本人の顔:4番目
- 本人の似顔絵
- 本人だが顔以外
- 本人と誰かが写っている:3番目
- 他人の写真:2番目(ファンとか)
- 文字だけ
- ロゴ
- オタク(美少年とか): 最多(ツイートも多い)
- キャラクター(アンパンマンとか、一般的なやつ)
- 動物
- モノ
- 自然
- デフォルト
- 分類
- 投稿の目的
- 問題点
- フィルターバブル、
- エコーチャンバーによる集団極性化、集団思考
- 閉じたコミュニティで密なやりとりがなされることで、群衆の英知が働かなくなる
- 極端なことをいうといいねがもらえたり拡散されたりする(炎上商法)効果もある
- 脱抑制 disinhibition :匿名性によるマナーからの逸脱
- 「バレなきゃ犯罪じゃないんですよ」
- 情報断片化:tiktok, twitter, shorts
- 忘れられる権利