chisataki’s blog

リコリス・リコイルじゃありません

EmbeddingBagレイヤーを用いて感情分析する

今回はPytorchのEmbeddingBagレイヤーを使い、日本語の入力文章がポジティブかネガティブか判定する簡易的な分類モデルを作成します。単語の埋め込みベクトル化にはword2vecを用います。main関数内のパラメータを変えることでポジティブ、ニュートラル、ネガ…

分散表現の事前学習済みモデル(fastText等)からボキャブラリーを作成する(pytorch)

古いバージョンのtorchtext(~0.12)ではtorchtext.data.Field.build_vocab(vectors = ...) でベクトル化したボキャブラリーが簡単に作れましたが、新しいバージョンではこの機能がなくなってしまい、Gloveやword2vec, fastTextなど単語分散表現の学習済みモデ…

AWS↔️GCPサービス比較【機械学習/AIまわり】

AWSサービス 分類 サービス詳細 対応GCPサービス 備考 S3 ストレージ Cloud Strage Amazon EMR ETL Dataproc AWS Glue ETL DataprocData CatalogComposer(Airflow)Data FusionDataprep Glueはバッチ/ストリーミングに対応 Amazon Kinesis Data Analytics デ…

BigQuery SQLコマンド集-2023年度版

データセットの管理 データセットを作成する プロジェクトの全データセット名をリスト表示 データセットの削除 テーブルの管理 テーブルの作成 テーブルのメタデータの表示 テーブルの削除 テーブルの外部エクスポート ネストされた列と繰り返し列を含むテー…

Kendra+LLM+LangChainでRAG実装する

この記事はAWSブログ記事の内容をまとめたものです:高精度な生成系 AI アプリケーションを Amazon Kendra、LangChain、大規模言語モデルを使って作る 記事の概要 LLMとAWS Kendraを連携させることで、 LLMからの応答をKendraに保存されたドキュメントのみに…

GCP外部からBigQueryに接続する方法

GCP

1. IAM管理画面からサービスアカウントを作成する(付与ロール例: BigQuery編集者) 2. サービスアカウントのキーを作成し、秘密鍵(.json)をダウンロードする 3. ダウンロードした秘密鍵のパスを環境変数名 GOOGLE_APPLICATION_CREDENTIALS として保存する (…

Dataformとは何者か?

GCP

概要 BigQuery用のSQLワークフローの開発、テスト、バージョン管理、スケジュール設定ができるサービス 具体的に何ができるの? テーブル定義や集計処理を、SQLXというSQLの拡張言語で記述することで、テーブル間の依存関係を元にワークフローを実行できる。…

Amazon Bedrockのオプトアウト方法

AWS

結論: Amazon Bedrockは、プロンプトをいかなるAWSモデルのトレーニングやサードパーティに配布したりするために使用しません。 また、サービスログにデータを保存したり記録したりもしません。 以下、ユーザーガイド p130(Data protection in Amazon Bedro…

最急降下法と勾配降下法の違いは?

最急降下法(Gradient Descent)と勾配降下法(Gradient Descent)は、一般的には同じアルゴリズムを指す場合が多いです。しかし、厳密に言えば、「最急降下法」は特にバッチ勾配降下法(Batch Gradient Descent)を指すことが多く、「勾配降下法」はその派…

S3→Lambda関数を呼び出すダミーイベントJSONの書き方

AWS

以下、AWS公式のドキュメントから引用 Lambda コンソールページで関数の [コード] タブを選択します。 [コードソース] ペインで、[テスト] を選択します。 [テストイベントの設定] ボックスで、以下の操作を行います。 [イベント名] で、MyTestEvent と入力…

Dataflow(GCP)を最短距離で理解する

GCP

データ分析基盤勉強中。知識共有用。間違えている箇所あったら、そっとご指摘ください。 Dataflowとは? Apache Beam(以下Beam)で記述されたデータ処理パイプラインを実行できる、Google Cloudのサーバーレスの分散処理サービスのこと。 Beamとはパイプライ…

MeCab IPA辞書のcsvファイル概要

MeCab用のIPA辞書に登録されている単語数は392126個(活用含む)です。 各単語は.csvファイルに(表層形,左文脈ID,右文脈ID,生起コスト,品詞,品詞細分類...)の形で1行ずつ記載されています。 各csvファイル(全26)の中身は以下。 ファイル名 品詞 単語例 登録数 …

Postgresqlのログ出力先(Ubuntu)

DB

Ubuntuですが探すのに時間かかったのでメモ。 ・Postgresqlのログの場所 /var/log/postgresql/postgresql-(version)-main.log ・設定ファイル(pg_hba.conf、postgresql.conf等)の場所 /etc/postgresql/(version)/main/ ちなみに設定ファイルの記述間違いは…

Djangoアプリをcloneしてサーバーで動かす

目的:あるサーバーで動いているDjangoアプリ(githubのプライベートレポジトリに存在)を別のサーバーに移転して動かしたい 前提: webサーバー: Nginx アプリケーションサーバー: Gunicorn 手順: 1.移転するサーバーでssh鍵の作成(github用) ssh-keygen -…

X Server VPS(Ubuntu)にMeCabをインストールする

まずはMeCab公式よりMeCab本体&IPA辞書のインストールです。 本体: mecab-0.996.tar.gz IPA辞書: mecab-ipadic-2.7.0-20070801.tar.gz その後サーバーの/opt/ディレクトリにFIlezilla等を使いアップロードしましたら、以下のコマンドでインストールを実行し…

VPSサーバー(Ubuntu)にPythonをインストールする

まずはpipで必要なツールをダウンロードします。 sudo apt install build-essential libbz2-dev libdb-dev libreadline-dev libffi-dev libgdbm-dev liblzma-dev libncursesw5-dev libsqlite3-dev libssl-dev zlib1g-dev uuid-dev 非公式Pythonダウンロード…

Nginxでサンプルページをとりあえず表示する

まずはnginxをインストールします。 sudo apt install nginx 続いてHTTPポート番号(80)を開きます。 sudo ufw allow 80 sudo ufw reload 早速Nginxの起動確認です。http://(サーバーIPアドレス)/ をブラウザから開きます。 以下のようなページが見られれば成…

vimの設定ファイルから色を変更する

vimエディターの設定ファイルの場所は vim --version で確認します。 表示下部に という箇所があり、 "ユーザー vimrc: "$HOME/.vimrc" と書かれているところが各ユーザー用の設定ファイルの場所です。 環境変数$HOMEは echo $HOME で確認できます。普通は /…

VPS契約後やること④SSHのポート番号を変えて接続する

前回は新規作成したユーザーでSSH接続をしてみました。 chisataki.hatenablog.com その際接続に使ったポート番号はデフォルトの22番です。22番は有名なポート番号で、このままではセキュリティー上あまり良くありません。今回はポート番号を別の番号に変えて…

VPS契約後やること③作成したユーザーでSSH接続する

前回の記事では、rootとしてVPSサーバーにログインした後にユーザーを新規作成する、ということをやりました。今回は作成したユーザーでSSH接続を試みます。 新規作成したユーザーでSSH接続するには、サーバー側でauthorized_keysという公開鍵ファイルを設置…

VPS契約後やること②ユーザー作成

(注)こちらの記事は初心者の自分用のメモとして書いており、誤りが含まれる可能性がありますので、お読みになられる方は必ず他の参考資料もご確認ください。 【前提】 VPS:x server vps OS:ubuntu 前回の記事でVPS契約後にVPSパネルからサーバーにとりあ…