コンピュータと機械学習に関するブログ始めました。

みなさん、はじめまして。
tkclimb と申します。(読みづらい)

趣味はコンピュータに関するなにか!?という少し変わった人間ですが、
自分が学んだことや読んだ本や論文の要約を記録するためにブログをはじめました！
自身の理解と同時に読者に役にも立てばなーと、適当に考えています笑

テーマは以下が中心になるかなと思います。

Computer Architecture
Machine Learning (Deep Learning)
High Performance Computing
Mathematics & Algorithm
English Second Language !?

偉そうに英語で書いていますが、だいたいコンピュータに関する何かで、内容も基本的なことが多いと思います。そう、何事も基礎から始めることが重要なんです！！(言い訳)

また、ESLとかコンピュータとは関係ないものも含んでいます。要するに興味があってやったことや調べたことのまとめという感じです。

日々の忙しさにもまれながら、ぼちぼち更新していけたらなと思いますー

一応更新はTwitterなどでも告知するので、気になる方がいたら目を通してみてください。

このブログの人気の投稿

GPUを支える技術読み始めた第5章[前半]

GPUを支える技術読み始めた第5章[前半] 新年の休みもとうに終わり、皆さんどうお過ごしだろうか。ちなみに主は年末読む予定であった本や論文を全く消化できずに今に至ってしまった。年末年始は時間があったので、ひたすら読んでいたはずなのになぜだ。。＿|￣|○ 読むのが遅いのがいけないのか？翻訳するのが遅いのか？？それともそれをまとめるのに時間がかかっているのか。おそらく全て当てはまるが、時間がかかるものは仕方がないので、少しずつ慣れていくしかないなー。。（-_-;）余談だが、年末にブログ執筆環境を再構築した。今まではwebエディタの Classeur を利用していたが、やはり純粋なWebアプリケーションなのでレンダリングやアップデートに問題があった。そこで、今までも利用していたAtomを少しカスタマイズして試してみたが、どうにも動作が重くかつ、vim-modeがいい感じにならずに残念に思っていたところ、vscodeのことを思い出した。どちらもエレクトロンベースだが、vscodeはAtomより全然軽く、markdownプラグインも豊富にあるので、すぐにmarkdown+mathjax環境を構築することができた。いやはや、世の中は便利になったものだ（＾ω＾）せっかくなので、下に執筆環境のスクリーンショットを自慢げに貼ってみようと思う。(markdownは頻繁に見る必要はないので、普段はプレビューは別のタブで開いている) もしかして、こういうことしてるから時間がかかるのかな？？／(^o^)＼それでは、本題に戻ろう。今回はGPU支える技術の第5章だ。4章と同じく楽しみにしていた章なのでじっくり読んでいきたい。なお今回も長い章なので、前半と後半に分けてまとめと感想を書いていく。第5章 GPUプログラミングの基本[前半] GPUの超並列プロセッサでプログラムを実行するには、超並列で実行でき...

GPUを支える技術読み始めた第5章[後半]

GPUを支える技術読み始めた第5章[後半] 最近、仕事の忙しさにかまけて全然ブログを更新できていなかったが、なんとかGPUを支える技術の5章までを投稿することができた。時間がないわけではないのだけどだけど、普通の読書や実装などに時間を割くと、なかなか文章を書く暇がない。。＿|￣|○ 効率を重視しながらも、重要なところを上手くまとめて復習に役立てられるブログにしていきたい。第5章 GPUプログラミングの基本[前半] 5.4 GPU プログラムの最適化 GPUで最大限力を発揮するには、その資源を有効に使うプログラム作成する必要がある。具体的には以下のような点が重要である。スレッドブロックはSMの数の整数倍にする NVIDIAのGPUはスレッドブロック単位で各SMに割り当てられ計算される。1度の割当で計算しきれない分は2巡目以降にで割り当てられる。この場合、スレッドブロックの数が中途半端だと最後のターンでSMにあまりが出てしまう。ただし、複数カーネルを同時に実行する機能もあるので、他のカーネルがあれば空いたスペースは自動で埋められる。演算機の計算パイプラインを意識する演算器が前の計算を行ってからその結果を再度利用するには10サイクルほど要する。NVIDIA GPUはワープ(32スレッド)を同時に計算を行うが、ワープの結果を利用する予定の他のワープはその実行時間分を待つ必要がある。この隙間時間はワープスケジューラが別のワープを演算機に割り当てるが、全部で64ワープしかない、SM１つあたりのレジスタファイルは65,536個（1スレッドあたり32個）しかないということを考慮してプログラムを作成する必要がある。なお、ワープがDDRアクセスを必要とする場合、400〜800サイクルかかることもある。条件分岐への配慮以前の章でも説明したとおり、プレディケートによる条件分岐はif, elseの両方...

GPUを支える技術読み始めた第4章 [前半]

今年もあと少しになってきたが、なんとか目標だったもう一本を投稿することができて良かった。私情だが、先日の社内年末パーティでは年間MVPに選出していただいた。＼(^o^)／非常に嬉しく思うと同時に、いろんな面でサポートをしてくれたHWチームメンバやバックオフィスに感謝したい。また、来年は社内だけでなくて社外にも影響を与えられるよう頑張っていきたい。少し気が早いが、来年度の本ブログの方針として「基礎と応用」というコンセプトで書いていきたと考えている。古典的名著と最新の論文の要約などができたら上出来だろうか。（＾ω＾）直近だと、DeepLearning × HWに関するの新しめの論文や並列処理技法系の本のまとめを計画している。もしかすると、年内にまだいけるかもしれない。良い報告もできたところで、早速続きを初めていこうと思う。 4章は個人的には一番楽しみな章でじっくり読んでいる。内容が多いので前半と後半に分割して投稿していく。 4章 GPUの超並列処理 [前半] GPUの並列処理方式先の章で並列処理方式について以下のように説明した。 SIMD: 1つの計算を幾つかのデータに対して並列に実行する SIMT: 1つの計算を別々の演算機で並列に実行する 4章では上記2つについてもう少し詳しく解説している。 SIMD方式以下2つのベクトルXと行列Aがあるとする。 \[ \begin{align} \bf{X} &= (a, b, c) \\ \bf{A} &= \left( \begin{array}{ccc} a00 & a01 \\ a10 & a12 \\ a21 & a21 \end{array} \right) \\ \bf{Y} &= \bf{X} \cdot \bf{A} \end{align} \ \] Yを計算する時、SIMDでは先にXの列要素(a)を各演算機にブロードキャストし、Aの行要素(a00, a10, a20)と計算する。この動作をXの列要素分繰り返すことで計算を完了する。仮に、Xの要素がシェアードメモリ(後述)など、レイテンシのあるメモリに格納されている場合、各ブロードキャストでサイク...

Computer Architecture and Machine Learning

このブログを検索