「Transformer」後継と期待される「RetNet」活用 PKSHAが日英対応の独自LLMを開発 日本MSも協力

GPUのメモリ消費が約3分の1、レイテンシは約15分の1に抑えられ、スループットは最大8倍速いという