人気ブログランキング | 話題のタグを見る

データ分析職の素養について

データサイエンティストというかデータ分析職に就くための最低限のスキル要件とは - 銀座で働くデータサイエンティストのブログ

上記はいつもお世話になっているブログです。
難しいことを簡単に書いているので、
いつも本当にすごいと思います。
難しいことを難しく書くのは、むしろ簡単だと思うんですよね。
(wikipedia なんかは良い例かと)

で、上のブログを見て、私も考えました。

現在、私は主にデータ分析ぽい業務をしています。
開発をやっていたはずなのに、
どういうわけだか、こんな分野にいます。
部署としては開発の部署なので、、
「データ分析を元にしたシステム開発」という感じ。
なので、バリバリにデータ分析しているわけではありません。
バリバリ分析の部署もありますが、
そちらの人たちは本当に研究者です。

私の部署での業務では、こんな感じです。
・お客さんの要求と、処理速度と精度の兼ね合いを見て、
 「ちょっと精度は落ちるけど、速いからOK」とかを考える
・少数の人しか理解できないようなステキ理論より、
 「説明されれば中学生でもわかる」レベルの実装仕様を考える
 (難しい理論は、実装も難しいし、テストも難しいので)

実装を見据えた分析をするわけです。
時には、プロが見たら卒倒しそうな邪道な実装をすることもあります。
でも、決められた期間で作ることができて、
要求される速度で動いて、実装もテストもメンテも楽なら、
お客さんはそれでOKなわけです。
お客さんが欲しいものは、別にステキ理論ではなくて、
ちゃんと動くものです。

上司たちは、データ分析ができる人を増やしたいようです。
バリバリ開発するでもなく、出世も興味がないけれど、
ほどほどなんでもやります、みたいな私のようなお姉さん社員が
データ分析できるといいなぁと思っているようです。
(そりゃ戦力になってくれたら上の人たちとしては嬉しいよね)
でもなかなか人材が見つかりません。
私個人が考えている、データ分析チームに来てくれるといいなぁと
思っている人について、書いてみます。
(いよいよタイトルの内容!前置き長い!)

(1)地道な作業が苦でない人

データ分析はかなり地味で、単純作業も多いです。
そういうのが合わない人は多いみたいです。
明確な完成というのもないし、
完成しても何かが動くわけではないので、
プログラム書くよりも、達成感が少ないんですよね。

(2)「ベクトル」という言葉に嫌悪感がない人

「ベクトル」という言葉はよく出てきます。
「特徴量」とか。

私は根っからの文系なので、
理系の人はみんな「ベクトル」なんてちょろいのだと思っていました。
でも、そうでもないらしくて、
理系の人でも、「ベクトル」と聞くとテンションがダダ下がるという人が
結構いるみたいです。
先日も、ベクトルの内積の説明を1分ほどしたら、
みるみる目がウツロになっていく人がいて、
あーそうなんだーと思いました(笑

また、文系の人でも、
数式にあまり抵抗がない人が良いです。
私は抵抗があった方ですが、見慣れると見慣れます。
でも式の意味はいまだに全然わからないのですが(笑

(3)スクリプトが書ける人、コマンドラインが怖くない人

データ分析では、よく DB を使います。
ので、SQL が書けると良いです。
Hadoop HDFS なんかだと ruby を書くのでしょうが、
まだ RDB が多いので、 SQL のほうが出番が多いです。
ほぼコマンドラインなので、そういうのが怖くない人が良いです。

また、データ整形は多いです。
全部のデータを10倍する、みたいなものも多いです。
perl でも ruby でも python でもいいので、
簡単なスクリプトが書けると良いです。
書けなくても良いので、「そういうの無理です」と言わない人が良いです。

excel もよく使います。
excel は勝手に表示形式を変えてしまう
(年月日形式とか、小数点以下を勝手に減らしたり)ので、
エディタで操作することも多いです。
ノートパッド以外の、秀丸でもサクラでもterapadでもいいので、
使えるエディタがあると良いです。
データは文字コードもバラバラだったりするので、
そういう時も、エディタは必須です。
また、大きすぎて開けないファイル、というのも良くあります。
そういう時は、more や less や head や tail などを駆使して、
ファイルの中を見るということもあります。
やっぱりコマンドラインです。

SPSS などが使えることが重要と思う人もいるかもしれませんが、
数年前に一緒に仕事をしたデータ分析見習いの人は、
SPSS は使えるけど、データ前処理が全然処理できなかったので、
結局、分析ではそれほどの戦力になりませんでした。
(分析結果報告書を書く段には、その人の知識が大活躍しましたが)
世の中、キレイなデータのほうが少ないので、
SPSS などに入れるためのデータを作る作業は、ほぼ必ず発生します。
そのために、Python や SQL やコマンドラインを使います。
得意な人に分担してもらうこともできますが、
自分でできた方が、自分で考えた分析にすぐ着手できます。

上のほうでも書きましたが、
中学生でもわかる、ちゃんと動くシステムが欲しいわけで、
そういう時は、生データをあれこれして、
あれこれやってみる、という Try&Error が多いのです。

(4)学ぶことに抵抗のない人

初心者であるほど、ほぼ勉強ばかりです。
どんなジャンルでも勉強は必要ですが、
このジャンルは特に、統計とか、学校の勉強風の内容が多いです。
ので、学ぶことが多くてうんざりする人や、
確率統計だけは仲良くなれる気がしないという理系の人は、
あまり向かない気がします。



個人的には、統計の知識はあると良いし、
機械学習の知識もあると良いけど、
そういうのはOJTで覚えていけば良いと思っています。
それよりも、その人の性格とか好みとかが影響するなぁと思っています。

ちなみに、ウチのバリバリ分析部署の人たちは、
大学で研究していた院卒の専門家ばかりなので、
上記ブログの「最低限」でも全然足りないかも(笑)

XXX

ブログのタイトルと合わなくなってきたかもなぁと、
大分前から思っていました。
でもま、いいか、みたいな。
プログラムを書くのは好きなので、
仕事とは別に、ちょこちょこ書いたりしています。
ムダにAndroid Studioとか入ってるし!
by xiaoxia | 2015-04-07 18:00 | 考える
<< 人工知能の夢 [office2013]外れた... >>