きっかけ
上位概念Aと下位概念Bという二つの言葉がある場合、
①:「上位概念Aを含み、下位概念Bを含まない」文章( A && ! B )
②:「上位概念Aを含み、かつ下位概念Bを含む」文章( A & B)
③:「上位概念Aを含まず、下位概念Bを含む」文章( !A && B)
の3つの文章の数の比は、①>②>③が成り立つ。逆をいえば①>②>③が成り立っていれば、どちらが上位語かを判定できるわけだ。
上のサイトの仮説にもとづくと、
文章(webページ)の集合全体Uがあって、Aを含む文章、Bを含む文章の関係が図のようになっているときは、
Aが上位概念、Bが下位概念である、と言えます。
この状態を便宜的に「状態I」とします。
AとBの大小を固定しておいた場合、①>②>③という大小関係の他に、
①>③>②という場合も考えられます。
つまり、下の図のようになっているときです。この場合、AとBの関連は薄いと言えます。
この状態を便宜的に「状態II」とします。
発展
しかし、実際問題としては「①>②>③」と「①>③>②」をすっぱりと判定できるものではありません。
そこで、「A & B」を、A、Bそれぞれで割ることで正規化し、座標上にプロットしてみます。
(しばらく、NA>NBの場合を考えます。)
,
すると、状態Iは
各辺をで割って、
つまり、
となり、
状態Iのときは上の網掛けの正方形部分にプロットされます。
同様に、状態IIのときは
が、
となり、
となります。
状態IIは上の網掛けの三角形部分にプロットされます。
そうなると気になるのが、
上の図の網掛け部分にプロットされるような場合です。
,
ベン図で表すなら、このような、AとBが重なってしまうような状況。
おそらく、文章を書く上での「揺れ」とみなされるような場合であると考えられます。
つまり、AとBは同意語と言えます。
(いったん)まとめ
2つのタグA,Bの関係を調べるのに、
,
を考えて座標上にプロットします。
a.にある時・・・AとBの関連は薄い
b.にある時・・・AはBの上位概念である
c.にある時・・・AとBは同意語
さらに考察
が、境界ですっぱりと分けてしまうのは多少乱暴な気もします。
「傾向が強い」「弱い」「可能性が高い」「低い」としておいたほうがよさそうです。
そこで、原点(0,0)からプロットした点(x,y)への距離Rと、
y=xと(0,0)-(x,y)のなす角度を考えてみます。
仮定
Rが大きいほど、AとBの関連度が高い。0〜R〜ルート2。
角度(θ)が+に大きいほど、AはBよりも上位の概念である可能性が高い。-45度〜θ〜45度
まとめ
タグの上位下位を決定できるような仮説を立てることができました。
実際にはてなブックマークのデータを使って実験したものがあるので、そのうち公開したいと思います。
0 件のコメント:
コメントを投稿