ブログ始めました&NLP若手の会第9回シンポジウム行ってきました!
「ブログ書くまでが若手の会」と@mamorukさんに言われてたので、急遽ブログを始めることにしました。
というのは建前で、実は前からやってみたいなとは思っていたんだけど、普段なかなか忙しく(←言い訳)、面倒くさがりな自分には無理だろうなとあきらめていたのでした。(ということで、そんなに頻繁に更新はできないかも...)
まえおきはさておき、9月21-23日の3日間、NLP若手の会 (YANS) 第9回シンポジウム@マホロバマインズ三浦に参加してきましたー!!
今年は久しぶりの合宿形式ということで、発表以外にもさまざまな交流会企画が盛りだくさんでした。具体的には、
- ハッカソン
- 花火
- ビーチアクティビティ
- 卓球
- カラオケ
- 麻雀
- フットサル
と、これだけ見たら本当にシンポジウム?遊びに行っただけでは??と言われそうですが、いえいえちゃんと発表(ポスター)もしてきましたよ!
ポスターの内容やその他の発表内容は若手の会のHPである NLP若手の会(YANS) Web Site - 第9回シンポジウム (2014年) をご覧くださいませ。
1日目はハッカソンのチーム決めがあり、今回のハッカソンでは2つのタスクが用意されていました。
- 共通タスク : スポンサーしてくださった企業の1社である白ヤギコーポレーション様が、サービスにおけるユーザの行動ログデータを提供してくださることになり、このログデータを用いてユーザが記事を開く確率を推定し、予測精度を各チームごとに競い合うタスク
- オープンタスク : 「言語処理をする人であれば個人的な実装でほぼ必ずおこなうであろう処理を一つ減らす、まだ世に広く普及していないライブラリ」「言語処理の論文を書くときに使えば論文を書く何かの作業の手間が確実に減るサービス」の開発
僕は今回オープンタスクに参加することにしました。共通タスクの方は結構ガチで、使用する言語ごと (Python2系チームやC++チームなどなど..) でチーム決めを行っていましたが、オープンタスクの方は思ったより人が少なかったので、ハッカソンの時間帯とちょうど被っていた交流企画(1)でどうしても卓球がやりたいかorやりたくないかでチームを決めてました笑。そんなこんなで僕のチームは結局、長岡技大M1の宮西さんとNAIST松本研で同期の澤井くんの3人に決まりました。話合いの結果、僕たちのチームは「実験中に作成した中間ファイルの入出力などを可視化」するようなサービスを開発することに決めました。よく実験の再現を行う時に「この中間ファイルはどうやって作られたんだっけ?」とか、「どういうファイル形式にしたんだっけ??」など作成した段階では覚えていたことも後になってから見返すと思い出すのに時間がかかるので、その手間を減らすことがこのサービスの目的だったりします。
ハッカソンでやることの大枠が決まってからは、すぐに開発に取りかかるわけでもなくみんなで卓球しに行きました。卓球はNTT CS研インターンでだいぶ鍛えられたので密かに自信があったものの、みんなかなり上手で、特に宮西さんの天井を巧みに利用したショットにだいぶ苦しめられました笑。卓球で良い汗を流したあとはいったん部屋に荷物を置きにいきお待ちかねの夕食。
部屋のベランダからの景色
写真にすると、思ったよりふつう(笑)
宴会場
ドラマとかで見たことあるやつだ。
夕食を食べ終わり、ハッカソンをちょこっとだけした後に部屋に戻ると、何やら2日目に口頭発表がある富田さんの発表練習を@mamorukさんや@hitoshi_niさん達が聞いてあげていた様子。僕も邪魔しないようにそーっと隣の和室で作業してたら、途中、富田さん「ここで、イケメンと美女のみを愛するバイセクシャルがいると仮定します。今回の話はつまり、こういう人たちにもっとブサイクな人も愛してあげようよと、そういうことなんですよ!」@hitoshi_niさん「うぇーん!助けて@mamorukさーん!!」という会話を聞いて一体何を話しているんだ!?と思いましたが...w
2日目は口頭発表やポスター発表がいよいよ始まり、またこの日はそれに加え招待講演やスポンサー発表なんかもあり盛りだくさんな一日でした。
ポスター発表で特に興味深かったのは、梶原さん(長岡技大)の「高頻度語は平易語なのか?」の発表で、実は僕が先月行ったCS研でのインターンでは「語彙平易化」というこれと内容的にかなり近いタスクに取り組んでいたからです。梶原さんの研究で面白いのは「(小学生の読解支援を研究の目的にしていることもあり) 平易な語の基準を小学生が分かるか分からないか」と仮定している点です。簡単さを定義する際には一般的に「1. 日常的によく使われるようなgeneralな語が簡単とする」「2. generalな語のほうが多義性があるため文脈に応じて使い分ける必要があるという点で難しいとする」の2通りの考え方があって定義の段階で揺れるのだけれど、梶原さんの仮定を置くことで前者で定義できるので、次の段階の議論に進むことができるのがよいと思いました。
昼食終わりの招待講演では、Google 牧野さんの「研究の現場におけるコードの検証と共有」という発表が大盛況でした。また、発表の内容が僕たちがハッカソンのオープンタスクでまさに取り組んでいることとかぶっててビックリしたと同時に、「これは優勝狙えるかも?」と密かに思いました。研究の現場におけるコードの検証と共有(Google 牧野) 実況 by mamoruk - Togetterまとめ にmamorukさんがまとめてくださってるので興味のある方はどうぞ。
2日目の夜は、ホテルが三浦海岸のすぐそばということもあり、みんなで花火しました。
(自分で撮った写真はあまり写りが良くなかったので、Google牧野さんが撮った写真をお借りしました。すいません;)
最後の最後で夏っぽいことができて良い思い出になりました〜。
線香花火も風情があってなかなか良い
花火が終わったら、ハッカソンの続きをしました。深夜遅くまでの作業を覚悟していたのですが、澤井くんの圧倒的実装力のおかげもあり予定よりもだいぶ早く終わりました。(ハッカソン的にはあまりよくないかも・・・)
翌日は自分のポスター発表もあるし、少し明日の準備をして今日は早めに寝ようと思い自分の部屋に戻るとなんだか知らない顔ぶれが多く、あれ?もしかして部屋間違えたかなと一瞬焦りました。それもそのはず、6人部屋のこの部屋に15人くらいの人がいてその内本来この部屋にいるはずの人が僕を含めて3人しかいなかったのです。その後の様子はしっかりトゥギャられてましたのでお察し頂ければ幸いですw
3日目はついに自分のポスター発表の日、そんなに緊張はしていなかったけど 90分間ちゃんと人が聞きに来てくれるのかだけが心配でした。 今回の自分の発表内容は「Project Nextの英文校正タスクの前置詞エラー分析に向けて」ということで、現在自分が参加しているProject Next NLPの英文校正チームで取り組んでいることの中間報告のような内容でした。蓋を開けてみるとあっという間に90分間を過ぎてしまい、みなさん熱心に発表を聞いてくれてたようで嬉しかったです。そして、いろんな人から今後のエラー分析に向けて良いフィードバックを頂きました。今回の分析結果の一つの解釈としては、前置詞誤り自体はスパースで、それゆえ (特に統計的機械翻訳を用いた手法では) 訂正しなくてもよいところを訂正してしまうケース (False Positive) が多いことがF値を大きく下げてる要因であることだったのですが、それに対して、
- ほとんどの場合正しい (訂正しなくてもよい) というような事前分布を用いたモデルを作る
- あらかじめ誤る個数を推定して訂正する回数に制限を入れる
- 同じ前置詞でも文脈によって使われ方が異なるのでそれに対する外部リソースの活用
などいろいろ意見・アドバイスを頂きました。ありがとうございました。
若手の会も終盤になり、ハッカソンの結果発表と奨励賞の結果発表が行われました。
なんとハッカソンのオープンタスクで僕たちのチームが優勝?しました :D
そして、今回の奨励賞に我らが松本研のつばきさんがノミネートされてました!実は僕はつばきさんの発表に投票しましたよっ(←必死のアピール) 何というかつばきさんの発表はどこか人を惹き付けるものがあるんだよなー。自分も見習わなくては!!
若手の会終了後、せっかく横浜にいるのだから直帰はもったいない!3日間お疲れ様!!という意味も込めて、同期3人で一風堂に行きました(謎)
ええ、周りが三浦海岸近くで新鮮なお刺身やお寿司をTwitterにupしている中で、空気を読まずにしっかり見せつけてやりましたよ (真顔)
とても充実した3日間でした。
運営の皆様どうもありがとうございました!!