IEEE ICDM DMC2007 まとめと発表スライド

IEEE ICDMDMC2007
IEEE ICDMDMC2007 その2
DMC3回目.先日課題報告会を終えたので,プレゼンテーションに使ったスライドを置いておきます.過去2回には書いていないですが,講義の課題として「コンテスト後に公開されたラベルの位置座標情報を利用すると,どれだけ成功率が上がるかを試してみよ」というものもあったので,こちらも少しスライドで触れています.

ルールはこちら.スライド中で省略したラベル伝搬法の定式化云々はこちらに置いてある,DMC2007優勝チームの方のスライドが詳しいです.というよりも今回は完全にこれをベースに組み立てています…

感想

「はじめてのでーたまいにんぐ」の感想としては,「どういう情報を使えるのか」「何が成功率に対して効くのか」をあれこれ考えるのはなかなか楽しかったなあと.なかなか直感通りの結果を返してくれないものですね.講義でSVMなりEMアルゴリズムなり習ったけど,今回はラベル伝搬をベースに,問題に非常に特化した評価軸を継ぎ接ぎして取り組む結果となりました.RSS信号の距離依存性なんかの物理モデルから評価関数を導けたら理論的根拠を見い出せて幸せになれそうですが,他の発表者を見る限りそれも上手く行かないようです(ノイズが強い&壁の情報が無いので障害物遮蔽をモデル化できない).
成果物の出来はともかく,自分ではデータマイニングのさわりだけでも体験できて良い経験になったと思っています.エンジニアとして使える道具(実際的なツールという意味でも思考レイヤの意味でも)が増えて悪い筈が無いなと.あとbayonの手軽さはとても気持ちいい.

(蛇足)更に成功率を上げたい!という場合は

今回はトレース内の時間情報を利用すると言いつつ,データの隣接度で定式化していました.実際には各データは定間隔で取られたものでは無く,0.5秒差だったり5秒差だったりとバラついているので,この時間差をもうちょっときちんと評価してあげると,もっと良くなる筈です.今回はそれに直前まで気付かずにいたため間に合わなかったというオチ.