LLMの元になるデータセットはどんな物があるんだろう?
どんなものっていうのは、英語や日本語のデータセットという意味もあるし、バイナリなのか、テキストなのか?
フォーマットとかあるのか?
たぶん、いろいろあると思うけど自分に使いやすいを見つけなきゃいけないなぁ。