About this Blog

This Blog has English posts and Japanese posts. About Mac, iOS, Objective-C, and so on.

2013年4月7日日曜日

[ソーシャルタギング]共起性尺度のまとめ

以前、taglaut.comというドメイン(現在はありません)で行なっていた、ソーシャルタギングのメモを発見したので公開しておきます。

共起の例と応用

ある人が、通販サイトからAという商品とBという商品を買った

多くの人が商品Aと商品Bを買っているなら、共起性尺度が高い、と言えます。
そこで、Aを買った人にBをおすすめ商品として紹介すれば、買ってもらえる可能性は高いです。
(amazon.comをよく使う人ならピンとくるでしょう)
出てくる結果はある意味で当たり前のことなので、それほどすごいとは感じないかもしれません。
例えば、釣竿を買う人なら釣り糸や餌・ルアー、釣り用ベストなどをおすすめすればいいというのは常識として分かります。
これを購買データの解析で自動で行えるというのがすごいところです。
また、誰も思いつかないような傾向が出てくるかもしれません。


ソーシャルブックマークで、あるページに対して、AというタグとBというタグが付けられた。

タグAとタグBの共起性尺度が高いなら、あるページにタグAがついた時点で、タグBもそのページにふさわしいだろうということが予想出来ます。


いろいろな共起性尺度

ここでは、ソーシャルブックマークでのタグ付けを念頭においています。
UがWebページの全体、
AがタグAがつけられたページの集合、NAがその個数、
BがタグBがつけられたページの集合、NBがその個数
です。
(同じページに同じタグが複数回付くこともありますが、ここでは考えていません。)

Jaccard係数

「AとBが共起した回数」割る「AとBの和集合」で求められます。

Simpson係数

「AとBが共起した回数」割る「A,Bの回数のうちの小さい方」で求められます。

Dice係数

「AとBが共起した回数」割る「A,Bの回数の平均」で求められます。


参考

[1]統計ソフトRのブログ 共起性尺度
[2]WEB+DB PRESS Vol.57 アルゴリズム実践教室【第2回】レコメンドエンジン開発に挑戦―関連記事を導き出すしくみを知る 伊藤直也
[3]類似度と距離 - CatTail Wiki*
[+]数式の表現にはCODECOGSのサービスを使っています。

0 件のコメント:

コメントを投稿