PCや土いじりやゲームやオモチャ、思いつくまま細切れネタを書き散らかす日記
シムエントリを導入してみました。記事の下に出ている「この記事に近いブログはこちら」の部分ですね。関連度の高そうなエントリが表示されていることも多く、とても期待が持てるブログパーツだと感じます。ただ、現状では改善して欲しい事が2点あります。「RSSフィード以外からのエントリ取得」と「スパム対策」です。
Fc2ブログでRSSを「全文配信」にしても、「続きを読む」以降はもちろん、本文ですら途中できられてしまいます。例えば「[プログラミング]ついカッとして @JHWHokkaido を作った。」では2段落目末尾の「バカだね俺」辺りまでしかRSSに乗っていません><。FC2の問題なんですが、できればRSSをトリガにHTMLもクロールしてくれると嬉しいです。Google AdSenseのセクションを認識してくれるとさらにハッピー。ただ、そこまでして精度がどの程度上がるか、と言う話なんで、HTMLまで見る価値は無いのかも。
「[プログラミング]JR北海道の札幌近郊の運行状況をTwitterにポストする」に対して表示されたシムエントリの図です。上の2つは「札幌」と言うキーワードに反応したようですが、R18ちゃうの、これー?
通報システムからブラックリスト登録なり、アダルト分類を付けるなり、キーワードフィルタリングするなり、考えないといけないでしょうね。どうせ形態素解析してるんだから、まずはブラックキーワードからでしょうか。「FC2スパム対策」を使うのも手ですね。
ここ1〜2日で登録数が一気に増えており(11,000エントリ)、情報の更新が遅れております。
from: こえむの編集後記
演算時間がエントリ数の2乗に比例するようなので、総当たりのベクトル比較なのかな。どうせ疎な空間なんだから、自己組織化マップとかである程度関連しそうなエントリの当たりを付けておくとかできないんだろうかと素人が呟いてみます。SOMの学習コスト?そんなのかんけーねぇーwww
こえむさんがんばれ、シムエントリ面白いよ!
この記事のトラックバックURL
http://iyouneta.blog49.fc2.com/tb.php/315-b0b7fc7f
コメントの投稿