Pythonである値をkeyにデータを結合をしたいとき、pandasのmergeが使えますが、データの行数が膨大だと実行に時間がかかります。 www.medi-08-data-06.work そんなときには、joinを使うことで、データ結合の処理速度を上げることができます。 joinを使って …
通常kaggleコンペでは、データセットのダウンロードから、結果の提出までを、kaggleサイト上で行います。しかし、kaggle-apiを使うことで、データセットのダウンロード、コンペ一覧表示、submission、leaderboardの確認など、ほとんど全ての作業をコマンドラ…
ブレインパッドという受託分析企業に入社してから、気づけば5ヶ月が経ちました。優秀な同期や、聡明な先輩などに恵まれ、日々多くのことを学びながら毎日を過ごしています。 そんな中で今回は、ブレインパッドの新卒研修の全貌を振り返りとともに書いていき…
縦軸が割合になっている棒グラフを作成したい!という方、今回は一瞬で割合棒グラフ作成する方法をご紹介します。これより簡単にかけるぜ!って方がいらっしゃったら是非コメントいただけると幸いです。 A,B,Cの数を割合で表したい。 今回は、A、B、 Cの文字…
Rでの実行結果や分析結果をインタラクティブなwebアプリにできたら、、そんな風に思ったことはありませんか?今回は、そんな願いを叶えるべくshiniyとshinydashbordを使って簡単にwebアプリを作ってみたいと思います。なお、今回の内容は入門編ですので、よ…
以前の記事で、Rmecabを用いたテキストマイニング をご紹介しました。 www.medi-08-data-06.work Rmecabの内部で動くmecabですが、web上の最新のキーワードなどにも対応したNEologdを辞書に使用することができます。ちなみに毎週更新されているようです(す…
Pandasで前処理を行う際に、文字列の処理に戸惑うことがよくあります。今回は、よく使いそうな文字列処理の方法をまとめていきます。ちなみに前処理全般については過去にまとめましたので、よろしければご覧ください。 www.medi-08-data-06.work また、Rユー…
Pythonはrに比べると処理速度が速いと言われています。しかし、Julia、C/C++などに比べると”うわ、私の処理、遅すぎ、、?”と感じるかもしれません。今回は、Pyhonで処理速度が遅いと感じたら見直すべきいくつかのポイントをご紹介します。 Point1:if xx in…
機械学習を用いた画像データの異常検知は、様々な分野で用いられ始めています。例えば、工場現場であれば、流れてくる製品から自動的に不良品をはじくといったことにもできますし、医療現場であれば、画像診断にも応用できるでしょう。異常検知の課題は、そ…
前回までで、微分、偏微分、最小二乗法、ベクトル、行列までを書いてきました。 www.medi-08-data-06.work www.medi-08-data-06.work www.medi-08-data-06.work www.medi-08-data-06.work 今回は、今までの知識を総動員し、ベクトルと行列による微分について…