言語とフラクタル
記号と再帰と同じ著者。よみかけ
-
I-3章
-
Chomskyの思想の根底には、言語の無限性に対する信念がある。Chomskyは、言語とは「目録」(inventory)のようなものではなく、「生成過程」(generative process)であると述べている。 (p28)
- べき関数のスケールフリー性
- \(y \propto (kx)^b \propto x^b\) 拡大してもグラフの形が変わらない
- 統計的自己相似性:統計的に観た場合には、自己相似的である
- 言語は統計的自己相似性を持つ
- 3.4 複雑系
- 複雑系は、
- 要素の分布にスケールフリー性を持ち、
- 列に長期記憶がある
- 長期記憶:系列のある部分が、遠く離れた他の場所に影響を及ぼす
- 複雑系は、
- 3.5
- 単語シャッフル列:コーパスを単語単位でシャッフルした列
- i.i.d.列の良い近似
- モンキー列:コーパスを文字単位でシャッフルした列
- 単語シャッフル列:コーパスを単語単位でシャッフルした列
-
-
II部 4章
- 順位頻度分布:ある単語 \(w \in W\)の頻度を \(f\), その頻度順位を \(r\)として、\(r\)に対する\(f\)の分布
- [[ Zipf則 ]]
- \(f = ar^{- \eta}\) ただし a は頻度一位の単語の頻度
- \(\eta\)は1程度(\(f \simeq a/r\))
- 言語に限らず音楽などでも成立するが、言語要素を単語以外(文字など)にすると関係が変化する
- 80%の異なる単語が、全体の単語量の20%を占める。一回しか出ない単語 hapax legomena が多い(白鯨で6割程度)。
- 文書の一部を取り出してもZipf則が成り立つ。Zipf則はスケールフリー性の一つである。
- もとの文書の変形
- 単語シャッフル列では自明にZipfが成り立つ。
- モンキー列でも(スペースで切ったものを単語とみなすと)Zipf則が成り立つ!
- 一様モンキー列(白鯨のシャッフルではなく、単にランダムに文字を並べたもの)も、大域的にはZipf則に従う
- Zipf則は有限の要素を並べて得られる列一般の性質で、言語に特有ではない。
- Zipf則は言語にどのような影響を与えているか?→IV部
- 単語N-gramの頻度も、Zipf則に従う(\(\eta\)はNが大きくなると小さくなる)
- イディオムや言い回しによる
- 単語シャッフル列、モンキー列ではあまり成り立たない
- p59
Backlinks
There are no notes linking to this note.