Evaluation 754a9477-d216-4058-8e15-4a7dfeef53fe - ox/Rag-Benchmark

Total running cost: $0.0002

	Prompt	Rows	Type	Model	Target	Status	Runtime	Run	By	Tokens	Cost
Run	Are the answers equivalent? Answer "true" or "false". All lowercase. Answer 1: {answer} Answer 2: {prediction}	200	text → text	Unknown/gemini-1-5-flash	78b9940028d1e24ed8fd189168a45c39	completed	00:01:20	1 year ago	ox	11469 tokens	$ 0.0002
Sample	Are the answers equivalent? Answer "true" or "false". All lowercase. Answer 1: {answer} Answer 2: {prediction}	5	text → text	Unknown/gemini-1-5-flash	Sample - N/A	completed	00:00:01	1 year ago	ox	213 tokens	$ 0.0000
Sample	Are the answers equivalent? Answer "true" or "false". Answer 1: {answer} Answer 2: {prediction}	5	text → text	Unknown/gemini-1-5-flash	Sample - N/A	completed	00:00:01	1 year ago	ox	198 tokens	$ 0.0000