Gemma 4 31B ITをAI Studioで試してみているんだけど思ったより感触がいい このくらいの性能のやつがこのサイズで公開されるのすごすぎるな
会話
Gemma 4-26B-A4Bを動かしてみてる。 8GB VRAMしかないのでまあ8〜10 tok/s くらいしか出ないのだけど、正直意外とそこまでストレスがない。 リアルタイムなやり取りが必要なら流石に30〜40 tok/s くらい欲しくなるけど、別にテキストでのやり取りならこれくらいで十分なんだな
関連する投稿
- author @BD1pt0ZCnY
5/26/2026, 11:08:08 PM 今現在だと、無料でそれなりのLLMのAPIを叩きたい場合: Opencode ZenでDeepseek-V4-Flash-free さくらのAI EngineでKimi-K2.6 Gemini APIでGemma-4-31B (OR 26B-A4B) あたり? あと試していないけどOpenrouter? Tier上げのための課金を許容できるならOpenAIのデータ共有でもらえるやつとかもありかも
- author @BD1pt0ZCnY
4/13/2026, 3:51:16 PM LLMの速度について最近思っているのは、Token per secじゃなくて、Task per secか、Turn per secを問題にすべき時期だと思うんだよね。 パッパといろんなtoolや操作をしてもらいたいし、状況を見てすぐに判断させようとすると数秒ごとに判断させる必要がある。 もっと別の言い方をすれば、1ループの速さを測定して、それをもっと早くすべき
- author @BD1pt0ZCnY
4/10/2026, 12:08:54 AM ToDo TTS・STT・LLMを連結したものは、だいたい作れそう。 ただ、各モデルを何にするか、VRAM 8GBでどれを採用するかは未決。 似たようなものをたくさん作ってしまっているので、どの方向性が一番よいかは整理したい。 とにかく早く、ちゃんと触れるものを作る必要がある。CLI側はある程度できているけれど、Web UIはまだない。 llamaのWeb UIはかなりよいので、そのあたりをベースにするのがよさそう。 実際に触って改善する流れにまだ入れていないのが課題。もっと触りやすくして、検証を回したい。 スマホからの音声入力も、今後の連結先として使えそう。 なのでWeb UIもPC向けより、スマホ向けを先に考えたほうがよいかもしれない。LINEっぽいUXの方向。 別件。 diary.soushou.net に過去のTwitterアーカイブを入れる。 OGP設定をもう少しちゃんとやる。 ルートドメインの活用も考える。継続的なアクセスがある。 他のドメインが全然活用できていないので、その扱いも整理したい。 更新しないという選択肢も含めて検討する。
- author @BD1pt0ZCnY
4/7/2026, 11:26:29 PM Gemma 4-26B-A4B、だいぶ使い勝手がいいモデルだな。これをスマホとかで動かせる人マジで羨ましいな
- author @BD1pt0ZCnY
4/7/2026, 2:10:31 PM Gemma 4-31Bも一応 1 tok/s くらいだけど動きはした