ぺーぱーの日々

上機嫌でいること、夢中でいることを目標に、今日も色んなことに手を出します。

MENU

機械学習の用語集

用語

  1. 一言で
  2. わかりやすい例
  3. ポイント
  4. 参照
  5. 実装例

機械学習

  1. コンピューターに学習させて、分類とか予測をさせる
  2. 大量の画像から顔認識する(分類)、過去の株価データから未来の株価を予測(回帰)
  3. 入力→学習→出力
  4. https://ainow.ai/2022/02/01/262467/#i-4 機械学習理論の考え方をゲームを使ってみてみる | NHN テコラス Tech Blog | AWS、機械学習、IoTなどの技術ブログ
  5.  

モデル

  1. 入力したデータを基に、結果を導く仕組み
  2. 音声の文字起こし
  3. https://www.dsk-cloud.com/blog/what-is-machine-learning-model

回帰

  1. 未来の数値を予測
  2. 過去の気温から明日の気温を予測する
  3. 【3分で分かる】回帰問題と分類問題の違い - Qiita

分類

  1. どのグループに属するかを予測
  2. 特徴からどの犬種かを当てる
  3. 【3分で分かる】回帰問題と分類問題の違い - Qiita

データセット(dataset)

  1. データの集合
  2. 過去10年分の株価
  3. 特になし

中間層

  1. 入力層と出力層の間
  2. なし
  3. 下の画像

過学習Overfitting

  1. 手元にあるデータにぴったりと合いすぎて、使えない予測をすること
  2. なし
  3. https://toukei-lab.com/over-fitting

特徴量(feature)

  1. 予測の手掛かりとなる数値
  2. 人間でいうと、身長や体重、年齢、性別
  3. https://www.tryeting.jp/column/1000/

交差検証(cross-validation)

  1. 予測モデルの精度を図る
  2. 「靴を投げて明日の天気を予報する」予測モデルの精度を図る
  3. クロスバリデーションでモデル選択の過学習を回避!変数選択で重要な理由とは?|いちばんやさしい、医療統計

パラメーター(parameter)

  1. 外から入ってくる値
  2. (URLパラメーター)URLのなかの「?」以降の文字列
  3. https://wa3.i-3-i.info/word1443.html

スタッキング(stacking)

  1. 複数の学習モデルを使う
  2. 線形回帰×ランダムフォレスト
  3. https://bigdata-tools.com/stacking/

正規分布(normal distribution)

  1. 左右対称で平均を中心に左右に裾野をもつ、富士山のような形をしているカーブ
  2. 偏差値
  3. 統計手法は、正規分布を前提としている
  4. https://bigdata-tools.com/normal-distribution/ https://www.albert2005.co.jp/knowledge/statistics_analysis/probability_distribution/normal_distribution

正規分布曲線(bell curve)

  1. 正規分布を曲線にしたもの
  2. 左右対称の山みたいなグラフ
  3. X軸の要素が連続しているから、曲線を描ける
  4. https://www.albert2005.co.jp/knowledge/statistics_analysis/probability_distribution/normal_distribution
  5. ヒストグラムに正規分布曲線を重ねたそれっぽいグラフを描きたい! - ぺーぱーの日々

アルゴリズム

  1. 計算や処理の手順
  2. 大根のいちょう切りの手順
  3. コンピュータにも限界があるから、効率的に仕事をしてもらうための手法が必要
  4. アルゴリズムとは?プログラミングにおいての重要性、代表的なアルゴリズムの種類を紹介  

    必須教養!?プログラミング“金メダリスト”に学ぶ「アルゴリズム」【橋本幸治の理系通信】(2022年3月30日) - YouTube

  5. どのアルゴリズムを使ったら良いの? - ぺーぱーのまなび

二分探索法

  1. 2択を繰り返して答えにたどり着くアルゴリズム
  2. 1~100までの数字を当てる
  3. データが順番に並んでいないと使えない
  4. https://wa3.i-3-i.info/word1614.html

幅優先探索

  1. 出発点から順番にしらみつぶしにいくアルゴリズム
  2. 乗り換え案内
  3. 深いところがあると、時間がとられる
  4. 必須教養!?プログラミング“金メダリスト”に学ぶ「アルゴリズム」【橋本幸治の理系通信】(2022年3月30日) - YouTube

ham

  1. スパムメール(迷惑メール)でないもの
  2. 迷惑メール→spam、そうでないメール→ham
  3. 迷惑メールの分類
  4. http://www-optima.amp.i.kyoto-u.ac.jp/papers/bachelor/2004_bachelor_inoue.pdf

離散値

  1. 連続していない値
  2. 男性→1、女性→0とする
  3. 整数で表す(0.5とかの中間値を取らない)
  4. 機械学習においての分類とは?代表的なアルゴリズムやメリットも解説! | AI専門ニュースメディア AINOW

決定木(decision tree

  1. 枝分かれをして答えを導き出す
  2. 野球をするか、を条件分岐して決める
  3. リスクマネジメントで使われる
  4. https://ainow.ai/2022/02/01/262467/#i-4

ランダムフォレスト(random forest)

  1. 複数の決定木を使って、多数決して決める
  2. 導き出したいのは1つ
  3. 単独の決定木よりも優れた分析結果が得られることが多い
  4. https://ainow.ai/2022/02/01/262467/#i-4

ロジスティクス回帰

https://gmo-research.jp/research-column/logistic-regression-analysis

https://gmo-research.jp/research-column/logistic-regression-analysis

  1. 「ある事柄が起きるか起きないか」を分類するためのアルゴリズム
  2. 喫煙と飲酒の量に応じて、がんが発生する確率を予測
  3. 名前に「回帰」とあるけど、分類するためのもの
  4. https://gmo-research.jp/research-column/logistic-regression-analysis

カテゴリー変数(categorical feature)

  1. 量では表せない変数
  2. 性別とか宗教
  3. 量的変数に対して、質的変数とも呼ばれる。
  4. https://vector-ium.com/stats-variable/

歪度(skewness)

  1. 分布の歪み度合い
  2. 左重心の富士山
  3. 数値データと記号データの両方を扱うことができる.
  4. https://academic-support.jp/%E6%9C%AA%E5%88%86%E9%A1%9E/558/

尖度(skewness)

  1. 分布のとがり度合い
  2. つぶれた富士山
  3. 数値データと記号データの両方を扱うことができる.
  4. https://academic-support.jp/%E6%9C%AA%E5%88%86%E9%A1%9E/558/

パラメータ

  1. モデルが勝手に調整してくれる数値
  2. バイアスとか、重みとか
  3. 勝手にやってくれる
  4. 【初心者】機械学習の〇〇データが分からない【図解】

ハイパーパラメータ

  1. 人間が調整する数値
  2. 学習回数とか
  3. プログラマーが決めないといけない
  4. 【初心者】機械学習の〇〇データが分からない【図解】

box-cox tranform(べき正規変換)

  1. 正規分布に変換する
  2. 過去のデータから将来のPM2.5の値を予測
  3. 線形回帰とかできないから
  4. https://toukei-lab.com/box-cox%E5%A4%89%E6%8F%9B%E3%82%92%E7%94%A8%E3%81%84%E3%81%A6%E6%AD%A3%E8%A6%8F%E5%88%86%E5%B8%83%E3%81%AB%E5%BE%93%E3%82%8F%E3%81%AA%E3%81%84%E3%83%87%E3%83%BC%E3%82%BF%E3%82%92%E8%A7%A3%E6%9E%90

get_dummy(ダミー変換)

  1. 質的変数を量的変数っぽく変換する
  2. 男を0, 女を1のように変換したりする
  3. 数値にしないと評価できない

パイプライン(pipeline)

  1. 学習ステップを自動化して、継続して実行する
  2. 特になし
  3. 予測精度を担保するために、学習そのものの精度をチャックする必要だからmake_pipelineをする
  4. コラム - グーグルのクラウドを支えるテクノロジー | 第70回 機械学習パイプラインにおける学習データの異常検知システム(パート1)|CTC教育サービス 研修/トレーニング

クラスタリング(clustering)

  1. 類似しているデータをグループ分けする
  2. 顧客のグループ分け
  3. 答えを渡す→分類、答えは渡さない→クラスタリング
  4. https://ledge.ai/clustering/

外れ値(outlier)

  1. 極端に大きい、小さい値
  2. [10, 8, 9, 7, 9, 500] で、500がいるのといないの(90.5 VS 8.5)
  3. ノイズとして処理される
  4. https://aiacademy.jp/media/?p=2267

スケーリング(scaling)

  1. 各次元の関係をわかりやすくする下準備
  2. 標準化、正規化が有名
  3. 単位が違う、桁が違うと比較できない
  4. AI Academy | 標準化と正規化

標準化(z-core normalization)

  1. 平均を0、標準偏差を1に変える
  2. AI Academy | 標準化と正規化

正規化(min-max normalization)

  1. 最大値を1、最小値を0に変える
  2. AI Academy | 標準化と正規化

次元削減(Dimensionality Reduction

  1. 意味を保ったまま、データを要約したり、縮約したりする
  2. データの可視化
  3. 4次元よりも2次元のほうが、人間にはわかりやすい
  4. https://analysis-navi.com/?p=2175

  5.  

部分集合(subset)

  1. ちっちゃな集団
  2. 全体の集合をfullsetと呼ぶ。subsetは、fullsetの一部。
  3. https://wa3.i-3-i.info/word15233.html

データラングリング(data-wrangling)

  1. 分析しやすいようにデータを処理する
  2. クリーニングとか、データ型の変換とか
  3. 元々、「馬とか牛を集めて飼いならす」の意味。

タイムスタンプ(timestamp)

  1. ある一点を表す
  2. 2022-06-08-19:45:55
  3. 時点→timestamp、期間→period

サンプリング(sampling、標本抽出)

  1. 母集団から標本を採ってくる
  2. 視聴率を図るために、200家庭に電話アンケート
  3. 母集団全体の特徴とか傾向を知るため

ホワイトノイズ(white noize)

  1. ある時点に発生する乱数
  2. 株価のチャート
  3. 確率的なばらつきを表すときに使う
  4. https://ai-trend.jp/basic-study/time-series-analysis/time-series-analysis-stationaly-noise/

ランダムウォーク(random walk)

  1. 未来がどう動くかは、過去の動きとは関係がない
  2. 過去の株価推移から未来の株価を予測するのは、無理
  3. 現時点で知りうる材料は、すでに株価に織り込まれていると仮定する
  4. ランダム・ウォーク|証券用語解説集|野村證券

特徴抽出(feature extractor)

  1. 予測に必要な特徴量を選抜

CNN(畳み込みニューラルネットワーク

  1. 画像認識が得意

バッチ(batch)

  1. まとめて処理する
  2. 忙しくないときに、まとめてやろうか
  3. バッチサイズ=まとめて何個のデータを見せるか
  4. https://zenn.dev/nekoallergy/articles/ml-basic-epoch

学習回数

  1. データを何回見せたか
  2. 【初心者】ネコでも分かる「学習回数」ってなに?【図解】

多項式(Polynomial)

  1. 掛け算と足し算で成立している文字式
  2. 2x+yとか、2a**2-3b**2
  3. 項:+で区切ったときに得られるもの
  4. 多項式の全てがこれでわかる!多項式はこれで完璧だ!|高校生向け受験応援メディア「受験のミカタ」

多項式回帰(Polynomial Regression)

  1. 2つ以上の入力データを使って、数値を予測
  2. 身長、ウエスト、体脂肪…を使って、体重を予測
  3. https://qiita.com/tomoxxx/items/1045141b0219b3a21f32

imputer(代入法)

  1. なにかに代入する
  2. https://qiita.com/kibinag0/items/a940bb53b91757f132cc

自然対数の底ネイピア数

  1. 1年間の合計金利100% になる銀行にお金を預けたら・・・
  2. https://atarimae.biz/archives/10256#1100

sequece(シーケンスデータ)

  1. 連続しているもの
  2. 順番に並んだデータをシーケンスデータと言う

ネットワーク(network)

  1. ニューラルネットワークを指すことが多い
  2. 本来は、網の意。

ニューラルネットワーク(neural network)

  1. 脳の神経回路の仕組みを模した分析モデル
  2. ディープラーニングの基本
  3. 入力層、中間層(モデル層)、出力層からなる
  4. https://www.soumu.go.jp/ict_skill/pdf/ict_skill_3_5.pdf

正則化(Regularization)

  1. 情報を追加する
  2. 目的は、過学習を防ぐため
  3. 正規化(Normalization)と正則化(Regularization) - Qiita

LightGBM

  1. 勾配ブースティングの流れを汲む機械学習手法
  2. Kaggleの上位者よく使っている
  3. https://rightcode.co.jp/blog/information-technology/lightgbm-useful-for-kaggler#LightGBM

協調フィルタリング(Collaborative filtering)

  1. 「もの」と「人」の類似度から、おすすめする
  2. ECサイトに表示される「この商品を見た人はこんな商品も見ています」
  3. 協調フィルタリングって何?商品のおすすめ機能を学…|Udemy メディア 

    協調フィルタリングとは | データ分析基礎知識

ピボットテーブル(pivot table)

  1. 2つのカテゴリーのデータを集計したもの
  2. 売上管理表→だれが(従業員名)×なにを(商品分類)
  3. 予測
  4. Pandas入門講座|10.データ集計(pivot_table)の方法【PythonのライブラリPandas】 | キノコード

SVD(特異値分解, singular value decomposition)

  1. ある行列を直交行列と対角行列の積に分解する
  2. 次元削減手法のひとつ

ピアソンR相関(Pearson correlation、Pearsons' R correlation)

相関係数のこと

国語の成績と数学の成績の相関関係

散布図にしてみると可視化できる(1に近いと右上がり、-1に近いと右下がりの直線)

相関係数(Correlation Coefficient)/ピアソンの積率相関係数(PCC)とは?:AI・機械学習の用語辞典 - @IT

 

線形(linear)

  1. 比例の関係
  2. ガラスは、力を加えると、その大きさに伴い、変形が大きくなる
  3. 結果が予測しやすい
  4. 線形とは?1分でわかる意味、非線形との違い、線形的な材料、線形と剛性の関係

N-gram

  1. 文章を任意の文字数で分割する
  2. N=1→文章を1文字ずつ分割する
  3. 【自然言語処理】N-gramとは | AI Academy Media

重み(weight)

  1. より重要なものをを特別扱いする
  2. 加重平均が代表
  3. 加重平均の意味と計算方法

 

行列の対角化

  1. 任意の行列を、便利な性質をもつ対角行列に変換する
  2. 行列の対角化とは?意味と方法と使い方[練習問題付き] | HEADBOOST

トランザクション

  1. 「ここからここまでワンセット」的な処理単位
  2. 商品を打ち込んで、代金を受け取って、商品を渡す=トランザクション
  3. https://wa3.i-3-i.info/word142.html

 

よく参考にさせていただいているサイト

https://wa3.i-3-i.info/index.html

NekoAllergyさんの記事一覧 | Zenn

美容室よりも散髪屋が落ち着きます。

髪の毛を切りにきている。

 

入店してから1時間。

あと2人で自分の番が回ってくる。

 

1時間待ちだけど、

自分の後ろには1人しかいない。

 

誰よりも待っている。

いつもそういう役回り。

 

運は良い悪いではなく、

貯める使うもの。

 

待ち時間に運を貯めているんだと言い聞かせる。

 

 

ここで切るのは2回目。

まさに髪切りどころ。

 

入口近くにある券売機で、

チケットを購入。

 

油性マジックで数字が書かれてる。

 

順番通りに出てくるわけじゃないのに、

店員さんは正確に次の番号を呼ぶ。

 

店内を見渡しても、

番号を映し出すスクリーらしきものはない。

 

美容室を支えるのは3人のカットマン。

いずれも50代のおじさまたち。

きっと20年以上この3人でやってきたんだろうな、と思わせる安定感。

 

予約も指名もできない。

前回切ってもらったのは吉田鋼太郎みたいな雰囲気の店長らしき人。

マスク越しに垣間見えるお髭からベテラン感が漏れ出していた。

 

今回は違う人に切ってもらうことになりそうだ。

 

ここにくる人たちは

30〜70代の男性たち。

お店の前には自転車が並んでいることから、近所の人たちが利用する町の散髪屋。

 

以前は美容室に行っていたけど、

散髪代をケチりたいのと

もっと短時間で喋らなくて良さそうなところをネットで探した。

 

ホットペッパーに載ることもないし、

ホームページを持っているわけでもない。

 

自ら発信するのはTwitterのみ。

月に1回休日情報を発信。

 

必要最低限をしっかりやる。

仕事の流儀を感じる。

 

散髪屋は昔から口コミ文化。

Googleマップには97件のレビューが。

評価3.7

 

お得、スピード、確かな技術

ポジティブなコメントが並ぶ。

 

僕含めて世の中の男が

散髪に求めるのは機能性。

 

牛丼よろしく、

早くて安くて上手ければ良し!

 

中華屋も、クリーニング屋も、

街に根付く店って信頼できる。

PCR検査を受けるために並び始めて30分。まだ先は遠い…

いまPCR検査を受けるために並んでいる。

 

検査場は100mぐらい先。

 

並び始めて10分。

ほとんど進まない。

この10分で20人ぐらいの後続ができる。

 

念のため、2日後に唾液検査の結果が出るところでは検査済み。

 

昨日からまあまあな倦怠感があるので、体力の続く限り並んでみるが…

 

人間暇だと余計な情報を入れたくなる。

 

Googleマップでの検査場の評価は、2.4

なかなかお目にかかれない低評価

 

「1週間経っても検査結果が出てこない」

「問い合わせても電話が繋がらない、メールも」

「検査を受けるのに2時間並んだ」

等々

 

ただその評価も頷ける。

1箇所目での検査が終わった後、

当日中に結果が出るのか、問い合わせをしようと電話をかけても、繋がらない。

 

電話中だからかと思い、

時間をずらして3度連絡。

 

いずれもコール音さえ鳴らず。

 

「なぜ電話に出ないのか」と問い合わせたレビュワーによると、「電話は取らないように言われた」とのこと。

 

まあそういう対応も必要か、

いや、もし評価通りいつまで経っても結果が出なかったら、なぜ炎天下の中並んでいる?

 

 

退屈が情報を取り入れさせ、

情報が疑念を呼ぶ。

 

まさに情弱ビジネスの構図やん。

なんて邪推が止まらない。

 

 

そうこうしている内に結構進んだ?

と顔を上げるが、まだ検査場の入口を捉えられない。

 

倦怠感と暑さも苦しいが、

通りなく人たちにまるで病原菌のような視線を向けられるのが何よりキツい。

 

すぐ後ろには、2人の子どもとパパ。

 

彼らの平和なやり取りが唯一の救い。

 

子どもは宝。

2022年夏アニメ第1話を一通り見て、白黒判定をしてみた。

進撃の巨人鬼滅の刃名探偵コナン

 

「第1話が面白い作品は、えてして面白い」をコンセプトに

2022年夏アニメ11作品第1話を見て作品をの白黒判定を行った。

対象

見た作品

白黒判定

2話目が楽しみ

覚えていて、暇だったら見るかもね

今後見ることはない

  • シャドーハウス 2nd Season
  • てっぺんっ!!!!!!!!!!!!!!!
  • ブッチギレ!
  • 惑星のさみだれ

今後見ることない理由はこちらに書いているので参考になれば。

papermount.hatenablog.com

papermount.hatenablog.com

papermount.hatenablog.com

papermount.hatenablog.com

短編小説『かぜのこいびと』を読んで、学校をサボった日のことを思い出した

僕は、奈緒子が小学校一年生のとき、彼女の父親である崇さんによって、この部屋に吊り下げられた。僕を銀色のフックで固定し終えると、崇さんは満足げに奈緒子の頭を撫でた。

まるでハンニバルの世界観。

これまで散々刷り込まれてきた異質な世界。

 

今回も価値観の反転した

お話なのかなと思ったけど、

なんと爽やかな。

 

カーテンに心を寄せる。

 

なんとなく似たような感情を抱いたことがある。

中学3年から一人っ子になって、

よく学校をサボるようになった。

 

正しくはサボれるようになった。

 

父親は早く出て行くし、

ばあちゃんは扉を挟んだ隣に住んでる。

誰も気づかない。

 

高校3年間で合計50日は休んだと思う。

3年生では生徒会長なんかした。

誰よりも学校をサボる生徒会長。

よくも選挙勝てたな。

立候補したわけじゃないんだけど。

 

 

休むと決めたら、家を出ない。

出たくないから学校を休む。

 

何をして過ごせしたんだろう。

今ほどスマホは万能ではなかったし、

ずっとテレビを見ていたと思う。

 

疲れたら部屋に戻って寝る。

 

改めて書いたら、

青春を無為にしたようで悲しくなる。

 

まあ、青春は18までと決め込まないで、

いまは昔話を楽しむことにする。

 

 

ぼーっと天井なんかを見ていることもあった。

今でも覚えてる実家の天井。

 

斜めに真っ直ぐ伸びる線。

 

新築当初は喜んで

上がっていたロフトも、

いつの間にか教科書たちの行く末になった。

 

夏は暑くて、冬は寒い。

秘密の拠点にしていたのは

ほんの数時間だったと思う。

 

「こんな風に生きてていいのかな」

ぼーっとしてると考え始める。

いまも、昔も。

 

退屈が迷いを生むんだとつくづく思う。

 

しばらく経てば

「どうして人間をしなきゃいけないんだ」

なんてことを考えている。

 

風に漂うだけのカーテン

立っているだけの二段ベッド

ただそこにあるだけの貯金箱

 

「心を持たないモノになれたらどんなに楽か」

 

被害者意識を持ち始める。

きっと全ては退屈のせい。

 

この前母親は、

最近刺激がなくて嫌になる

と手紙で伝えてきた。

 

それは退屈のせいだよ。

手を動かせば充実するよ。

点字や手芸、漢検の勉強

僕が覚えてる限り、

手を動かす母を思い出して

こんなことをやったら?と伝えた。

 

退屈だから

カーテンに恋するし、憧れもする。

 

なんて強引にまとめてみたら、

小説の奥ゆかしさが見事に損なわれた。

 

 

でもお陰で、

あの日々のこと、

焦りを覚えるのは歳をとったからではないことを思い出せた。

 

ありがとう、カーテン。

アニメ『惑星のさみだれ』を見て、評価3の理由がわかる作品だった

2022年夏アニメを片っ端から見ようかと思って見た4作目。

 

先入観を入れたくないから、出来るだけ評価やレビューは目にしないようにしているんだけど、プライムビデオではそうはいかない。

嫌でも目に映った評価3。

果たして…

 

あらすじ

地球滅亡を企む悪の集団から地球を救えといわれた平凡な大学生。トカゲに転生した騎士との同棲生活。隣には姫が住む。

感想

評価2.5

続き全く見る気はなし。

どれだけ面白くなくても1話は見終えると固く心に誓っていたものの、残り10分で終了。

なぜ面白くないのか考えて見たい。

何を急いでいるのか、設定が詰め込まれている印象を受ける。最初にしっかり伝えないと、2話目以降は見られないと焦っているのかと思うほどに、トカゲの口から語られる設定がチープ。

突然地球を救えと言われている主人公のリアクションもどこかで見たことがある感じ。

敵の絵のタッチはGANTZを想起させる。

超常現象だっけ?炎みたいな円盤のやつ。あれは呪術廻戦に出てきそうな単語に似てた。呪術見たことないからイメージだけど。

遊戯王やREBORNのように、ギャグ作品から本格バトル作品に化ける可能性もあるのかなと思っていたけど1話目にバトルシーンがあったからそれもないかな。

緊張感のない寄生獣

この一言がピッタリかもしれない。

今後化けることがあれば、またその時に。