chisataki’s blog

リコリス・リコイルじゃありません

自然言語処理

EmbeddingBagレイヤーを用いて感情分析する

今回はPytorchのEmbeddingBagレイヤーを使い、日本語の入力文章がポジティブかネガティブか判定する簡易的な分類モデルを作成します。単語の埋め込みベクトル化にはword2vecを用います。main関数内のパラメータを変えることでポジティブ、ニュートラル、ネガ…

分散表現の事前学習済みモデル(fastText等)からボキャブラリーを作成する(pytorch)

古いバージョンのtorchtext(~0.12)ではtorchtext.data.Field.build_vocab(vectors = ...) でベクトル化したボキャブラリーが簡単に作れましたが、新しいバージョンではこの機能がなくなってしまい、Gloveやword2vec, fastTextなど単語分散表現の学習済みモデ…

Kendra+LLM+LangChainでRAG実装する

この記事はAWSブログ記事の内容をまとめたものです:高精度な生成系 AI アプリケーションを Amazon Kendra、LangChain、大規模言語モデルを使って作る 記事の概要 LLMとAWS Kendraを連携させることで、 LLMからの応答をKendraに保存されたドキュメントのみに…

MeCab IPA辞書のcsvファイル概要

MeCab用のIPA辞書に登録されている単語数は392126個(活用含む)です。 各単語は.csvファイルに(表層形,左文脈ID,右文脈ID,生起コスト,品詞,品詞細分類...)の形で1行ずつ記載されています。 各csvファイル(全26)の中身は以下。 ファイル名 品詞 単語例 登録数 …

X Server VPS(Ubuntu)にMeCabをインストールする

まずはMeCab公式よりMeCab本体&IPA辞書のインストールです。 本体: mecab-0.996.tar.gz IPA辞書: mecab-ipadic-2.7.0-20070801.tar.gz その後サーバーの/opt/ディレクトリにFIlezilla等を使いアップロードしましたら、以下のコマンドでインストールを実行し…