2013年6月3日月曜日

Bigdata HW7

遺伝子データから人種を類推する、という問題。

本来どういう方法でやることを想定しているのかよくわからないけど、 まあ、答えが合えばいいだろう、ということで、 手持ちのニューラルネットのコードでやってみた。

ところがこれが全然収束しない。何かコードがまちがってるのかと 色々見て見たが、特におかしくない。 ふと気がついて学習速度を調整するパラメータの値を二桁ほど下げたら ちゃんと動いた。。。 特徴ベクトルのサイズが100倍ぐらいになっていたせいなのか? このへんを手で設定しなければならないのが困ったもんだよなあ。。

しかし、スピードをまったく考慮していないコードであるとはいえ 特徴ベクトルが20万次元にもなるとこんなに遅いのか、という感じ。

2013年6月2日日曜日

BigData HW6 bayesian net

締め切りをだいぶ過ぎたけどなんとか。。 結局sqliteでやったけど、もっといい方法はないのか。 SQLじゃない実装ってどうなってるんだろう。うーん。。 どう考えてもSQLでの実装はかなり無駄があるんだがなあ。。

2013年5月29日水曜日

JSMapreduce

課題でJSMapReduce.com というPaaSを使うのだけどどうにも安定していない。 そもそもなかなか登録すら出来なかったし。。 課題のプログラムは入力データを生成することができなくて、ぐう。。

このPaaSはフォームからPythonもしくはJavaScriptでMapperとReducerを入れるとMap/Reduceしてくれるというもの。 ブラウザ上での実行とクラウド上での実行を選べて、クラウド上での実行の際には課金されるというモデルらしい。 残念ながらイマイチ安定していない感触なのだけど。 しかし、これって需要あるのかなあ。。MapReduceをこんなにもカジュアルに使いたいという層の需要がよくわからない。。。 とりあえずこのQuizはできなさそうだなあ。。

2013年5月9日木曜日

Guitar の課題

Guitar の課題、演奏(?)を録音してSoundCloudなるものにアップロードしてURLで投稿する模様。 そして、それを相互に採点するという仕組みのようだ。むう。

録音するのが面倒だなあ。iphoneにつなぐインターフェイスは持ってるからガレージバンドで録音はできるだろうけど、録音したものをどうやって取り出すんだろう??

まあいいや、週末に時間があったらやろう。

2013年5月7日火曜日

Guitar 第2週

バークリー音楽院提供のギター入門コース。
先生のProf. Taddeus Hogarthは、ドレッドヘアでヒゲモジャの黒人。
非常に理知的に話す。やっぱりミュージシャンと言うよりは教授って感じ。

今週はチューニングとピッキング。まだまだこのくらいなら
なんとか。

2013年5月6日月曜日

Ptyhonの課題

採点時にはどうもutf-8が出て行かない環境で実行されてるらしい。ので、手元で動いてるのに、向こうでエラーが出るというようなことがおこるようだ。

UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-3: ordinal not in range(128)

手元でテストする際には
unset LC_CTYPE
とかして確認した方がいい模様。

unicode文字列の出力時には明示的にencodeが必要。

print w.encode('utf-8')


neuron 単体の計算能力

時系列をもつイベントに対する計算が neuron 単体でできるとはびっくりだ。
これをneural netで実現するのは無理っぽいなあ。。

積み残し整理

- Big Data
    Video Unit 5, 6
    Quiz GL15/7 締め切り
    Quiz Learn 5/13
    Quiz Connect 5/20
    HW 4  5/13
    HW 5  5/20
    HW 6  programming 5/20

- Neuron
   Video 6
   Quiz Ex5  5/13

- Data Science
   Assignment 5/13

むう。。。絶対無理。

2013年5月5日日曜日

単語のセンチメント

単語のセンチメントを含まれている文章のセンチメントから逆に推定するのじゃ、 という課題が出てるのだけど、これどうやればいいんだ?参考にしろと指定されている 論文にはあんまり参考になる内容がないような。。

twitterのAPI

Twitterから取得できるtweetデータがかなりリッチなのにびっくり。1つあたり数キロバイトはあるのね。 一つ一つのtweetユーザのlocationデータとか、プロファイルの絵のURLまで含まれている。 アプリを書くには楽だろうけど、データ量多くてサーバ側は大変だろうな。

2013年5月4日土曜日

Introduction to Data Science

今週から始まったWashington大学のクラス。これはかなりきつそうだ。 Prof. Bill Howe の喋り方もはやいし、 いきなりかなり重めなプログラミングアサインメントが。 Python プログラムでtwitterにアクセスして、tweetをsentiment analyze して どの州が一番ハッピーかを出す、とかいうもの。

Python がかなり流暢に書けることが前提になってるけど、 これで大丈夫なのかな。。。

Courseraとは

いま米国で大流行しているフリーのオンライン大学システムの一つ。2011年に始まった時にはスタンフォードによる数個の授業だけだったのだけど、あれよあれよという間に拡大を続け、今や数えきれないほどのクラスが提供されている。分野もはじめはComputer Science だけだったのがいつのまにかSocial Science が加わわり、気がついたらバークリー音楽院による音楽系の授業まで。。インドの大学まで授業を提供するようになっている。

非常に良質な授業が無料で受けられることのインパクトは非常に大きい。 常識的に考えてスタンフォードのDatabase入門よりも良い授業ができる 講師がそんなにたくさんいるわけない。となれば、このオンライン大学と 正式に協定を結んで、オンラインでの授業に単位を出すことになっても不思議はない。 将来的には授業はオンラインで、オフラインの大学では演習やサポートのみを行なうという分業に なるのではないかという気がする。

また、英語さえできれば先端的な内容が無料で学べる ということになるので、英語圏と非英語圏の格差がひろがっていくことになるのかもしれない。

2011年の立ち上げ時に、DatabaseとMachine Learningを取って以来断続的にいくつか取ってみている。難易度や授業の質には結構ばらつきがある印象だけど、総じて非常に勉強になっている。

これまでに取ったのは以下のとおり。

  • Database
  • Machine Learning
  • Natural Language Processing
  • Computing for Data Analysis
  • Functional Programming in Scala
  • Software Engineering for SaaS
今やってるのが、
  • Web Intelligence and Big Data
  • Synapses, Neurons and Brains
  • Introduction to Guitar
  • Introduction to Data Science
まあ、Guitarは遊びとしても、 どう考えても、取り方を間違えてしまった感じで課題まで手が回らない。。 本業に影響を与えない範囲で頑張って行きたい。

あと、語学やってくれないかな。。韓国語とか。