EmbeddingBagレイヤーを用いて感情分析する

自然言語処理機械学習

今回はPytorchのEmbeddingBagレイヤーを使い、日本語の入力文章がポジティブかネガティブか判定する簡易的な分類モデルを作成します。単語の埋め込みベクトル化にはword2vecを用います。main関数内のパラメータを変えることでポジティブ、ニュートラル、ネガ…

2023-12-07

分散表現の事前学習済みモデル(fastText等)からボキャブラリーを作成する(pytorch)

自然言語処理機械学習

古いバージョンのtorchtext(~0.12)ではtorchtext.data.Field.build_vocab(vectors = ...) でベクトル化したボキャブラリーが簡単に作れましたが、新しいバージョンではこの機能がなくなってしまい、Gloveやword2vec, fastTextなど単語分散表現の学習済みモデ…

2023-12-04

AWS↔️GCPサービス比較【機械学習/AIまわり】

機械学習 GCP AWS

AWSサービス分類サービス詳細対応GCPサービス備考 S3 ストレージ Cloud Strage Amazon EMR ETL Dataproc AWS Glue ETL DataprocData CatalogComposer(Airflow)Data FusionDataprep Glueはバッチ/ストリーミングに対応 Amazon Kinesis Data Analytics デ…

2023-11-20

BigQuery SQLコマンド集-2023年度版

GCP DB

データセットの管理データセットを作成するプロジェクトの全データセット名をリスト表示データセットの削除テーブルの管理テーブルの作成テーブルのメタデータの表示テーブルの削除テーブルの外部エクスポートネストされた列と繰り返し列を含むテー…

2023-11-20

Kendra+LLM+LangChainでRAG実装する

自然言語処理 AWS

この記事はAWSブログ記事の内容をまとめたものです：高精度な生成系 AI アプリケーションを Amazon Kendra、LangChain、大規模言語モデルを使って作る記事の概要 LLMとAWS Kendraを連携させることで、 LLMからの応答をKendraに保存されたドキュメントのみに…

2023-11-17

GCP外部からBigQueryに接続する方法

GCP

1. IAM管理画面からサービスアカウントを作成する（付与ロール例: BigQuery編集者) 2. サービスアカウントのキーを作成し、秘密鍵(.json)をダウンロードする 3. ダウンロードした秘密鍵のパスを環境変数名 GOOGLE_APPLICATION_CREDENTIALS として保存する (…

2023-11-17

Dataformとは何者か？

GCP

概要 BigQuery用のSQLワークフローの開発、テスト、バージョン管理、スケジュール設定ができるサービス具体的に何ができるの？テーブル定義や集計処理を、SQLXというSQLの拡張言語で記述することで、テーブル間の依存関係を元にワークフローを実行できる。…

2023-11-10

Amazon Bedrockのオプトアウト方法

AWS

結論： Amazon Bedrockは、プロンプトをいかなるAWSモデルのトレーニングやサードパーティに配布したりするために使用しません。また、サービスログにデータを保存したり記録したりもしません。以下、ユーザーガイド p130(Data protection in Amazon Bedro…

2023-11-09

最急降下法と勾配降下法の違いは？

機械学習

最急降下法（Gradient Descent）と勾配降下法（Gradient Descent）は、一般的には同じアルゴリズムを指す場合が多いです。しかし、厳密に言えば、「最急降下法」は特にバッチ勾配降下法（Batch Gradient Descent）を指すことが多く、「勾配降下法」はその派…

2023-08-24

S3→Lambda関数を呼び出すダミーイベントJSONの書き方

AWS

以下、AWS公式のドキュメントから引用 Lambda コンソールページで関数の [コード] タブを選択します。 [コードソース] ペインで、[テスト] を選択します。 [テストイベントの設定] ボックスで、以下の操作を行います。 [イベント名] で、MyTestEvent と入力…

2023-04-12

Dataflow(GCP)を最短距離で理解する

GCP

データ分析基盤勉強中。知識共有用。間違えている箇所あったら、そっとご指摘ください。 Dataflowとは？ Apache Beam(以下Beam)で記述されたデータ処理パイプラインを実行できる、Google Cloudのサーバーレスの分散処理サービスのこと。 Beamとはパイプライ…

2023-01-28

MeCab IPA辞書のcsvファイル概要

自然言語処理

MeCab用のIPA辞書に登録されている単語数は392126個(活用含む)です。各単語は.csvファイルに(表層形,左文脈ID,右文脈ID,生起コスト,品詞,品詞細分類...)の形で1行ずつ記載されています。各csvファイル(全26)の中身は以下。ファイル名品詞単語例登録数 …

2023-01-24

Postgresqlのログ出力先(Ubuntu)

DB

Ubuntuですが探すのに時間かかったのでメモ。・Postgresqlのログの場所 /var/log/postgresql/postgresql-(version)-main.log ・設定ファイル（pg_hba.conf、postgresql.conf等）の場所 /etc/postgresql/(version)/main/ ちなみに設定ファイルの記述間違いは…

2023-01-24

Djangoアプリをcloneしてサーバーで動かす

webサーバー構築

目的：あるサーバーで動いているDjangoアプリ(githubのプライベートレポジトリに存在)を別のサーバーに移転して動かしたい前提： webサーバー: Nginx アプリケーションサーバー: Gunicorn 手順：１．移転するサーバーでssh鍵の作成(github用) ssh-keygen -…

2023-01-23

X Server VPS(Ubuntu)にMeCabをインストールする

自然言語処理

まずはMeCab公式よりMeCab本体＆IPA辞書のインストールです。本体: mecab-0.996.tar.gz IPA辞書: mecab-ipadic-2.7.0-20070801.tar.gz その後サーバーの/opt/ディレクトリにFIlezilla等を使いアップロードしましたら、以下のコマンドでインストールを実行し…

2023-01-22

VPSサーバー(Ubuntu)にPythonをインストールする

webサーバー構築

まずはpipで必要なツールをダウンロードします。 sudo apt install build-essential libbz2-dev libdb-dev libreadline-dev libffi-dev libgdbm-dev liblzma-dev libncursesw5-dev libsqlite3-dev libssl-dev zlib1g-dev uuid-dev 非公式Pythonダウンロード…

2023-01-22

Nginxでサンプルページをとりあえず表示する

webサーバー構築

まずはnginxをインストールします。 sudo apt install nginx 続いてHTTPポート番号(80)を開きます。 sudo ufw allow 80 sudo ufw reload 早速Nginxの起動確認です。http://(サーバーIPアドレス)/ をブラウザから開きます。以下のようなページが見られれば成…

2023-01-22

vimの設定ファイルから色を変更する

webサーバー構築

vimエディターの設定ファイルの場所は vim --version で確認します。表示下部にという箇所があり、 "ユーザー vimrc: "$HOME/.vimrc" と書かれているところが各ユーザー用の設定ファイルの場所です。環境変数$HOMEは echo $HOME で確認できます。普通は /…