Sky T1 tập luyện chế độ ô xem thử O1 của riêng bạn trên 450 bảng

Sky-T1: huấn luyện bản thân để xem thử mô hình O1 trên 450 bảng. Tại uc Berkeley, Sky Computing lab đã giới thiệu một mô hình lý luận, sky-t1-32b-preview, tương đương với o1-preview trong các tiểu thuyết lý luận và bài kiểm tra mật mã. Tốn ít hơn 450 đô la để huấn luyện, tất cả mã nguồn mở. Đây là bản dịch của bài viết của họ. Chúng tôi giới thiệu sky-t1-32b-preview, mô hình suy luận của chúng tôi, hoạt động tương đương với o1-preview trong bài kiểm tra cơ bản lập luận và mã hoá phổ biến. Điều đáng chú ý là, sky-t1-32b-preview không tốn 450 đô la cho việc huấn luyện, cho thấy khả năng lập luận cao cấp có thể được kích hoạt một cách hiệu quả về mặt kinh tế. Tất cả mã nguồn mở. Một mô hình như o1, Gemini 2.0 và các mô hình khác có khả năng suy luận đặc biệt, có thể giải quyết các công việc phức tạp bằng cách chia thành các chuỗi suy nghĩ bên ngoài dài hơn và đạt được các tiến bộ khác. Tuy nhiên, các chi tiết kỹ thuật và trọng lượng mô hình không thể chính thức được, và điều đó tạo ra một rào cản cho sự tham gia của giới học thuật và cộng đồng mã nguồn mở. Để làm rõ, một số nỗ lực đáng chú ý không ngừng được thực hiện để đào tạo các mô hình toán học về suy luận cân nặng mở rộng như vẫn -2 và chuyến bay. Trong khi đó, đội của chúng tôi ở uc Berkeley, NovaSky, đã tích cực khám phá các công nghệ để phát triển khả năng suy luận của các mô hình cơ bản và điều chỉnh hướng dẫn. Trong công việc này, chúng tôi không chỉ có khả năng suy luận cạnh tranh trong toán học cùng lúc, mà còn có khả năng suy luận cạnh tranh trong việc lập trình cùng một mô hình. 1.1 mã nguồn mở toàn diện: cùng nhau thúc đẩy sự tiến bộ để đảm bảo công việc của chúng tôi có thể tác động đến nhiều cộng đồng hơn, chúng tôi hoàn toàn cống hiến cho sự hợp tác mã nguồn mở. Chúng ta mã nguồn mở tất cả mọi chi tiết (tức là yếu tố để làm mô hình dữ liệu, đoạn mã,), cộng đồng để có thể làm bất cứ bản đồ SAO chép và cải thiện kết quả của chúng ta 2 bằng cách chia sẻ tài nguyên tất cả những nguồn tài nguyên này, mục tiêu của chúng ta là cộng đồng và làm cho lĩnh vực học thuật và mã nguồn mở có thể thêm trên nền tảng công việc của chúng ta khám phá thế hệ koule khả năng, bước đột phá và lý luận ranh giới của mô hình phát triển. Thứ hai, bố trí phương pháp 2.1 quá trình quản lý dữ liệu để sản xuất dữ liệu huấn luyện, chúng tôi sử dụng qwq-32b-preview, một mô hình mã nguồn mở có khả năng suy luận tương đương với o1-preview. Chúng tôi sắp xếp hỗn hợp dữ liệu (xem phần trước) để bao gồm cùng một lĩnh vực cần lý luận, và sử dụng quy trình mẫu để cải thiện chất lượng dữ liệu. Sau đó, chúng tôi dùng gpt-4o-mini để biến đổi quỹ đạo QwQ thành một phiên bản có định dạng tốt hơn, được truyền cảm hứng từ Still-2 để cải thiện chất lượng dữ liệu và giảm thiểu việc phân tích. Chúng tôi nhận ra rằng việc phân tích khó khăn là đặc biệt xấu đối với các mô hình lý luận -- chúng được huấn luyện để đáp ứng tích cực theo một dạng cụ thể, và kết quả thường rất khó để phân tích. Ví dụ, trong bộ dữ liệu ứng dụng, nếu không định dạng lại, chúng ta có thể giả sử mã được viết trong nhiều khối mã cuối cùng, QwQ chỉ đạt độ chính xác khoảng 25 phần trăm. Tuy nhiên, đôi khi mật mã có thể được viết ở đuôi, sau khi được định dạng lại, độ chính xác có thể tăng lên dưới 90%. Mẫu bị từ chối: cung cấp thêm các giải pháp dựa trên dữ liệu, và nếu mẫu QwQ không phù hợp, chúng tôi sẽ loại bỏ chúng. Cho các vấn đề toán học, chúng ta sẽ khớp chính xác với sự phát triển của các giải pháp thực tế cơ bản. Đối với vấn đề mã hóa, chúng tôi sẽ tiếp tục thử nghiệm đơn vị được cung cấp bởi bộ dữ liệu. Dữ liệu cuối cùng của chúng tôi bao gồm dữ liệu mã 5k từ APP và TACO, và dữ liệu toán học 10k của tập hợp yêu, MATH và Olympiads từ tập dữ liệu NuminaMATH. Hơn nữa, chúng tôi đã bảo vệ dữ liệu khoa học 1k và khối xây dựng từ the STILL-2. 2.2 huấn luyện chúng tôi sử dụng dữ liệu huấn luyện để tinh chỉnh qwen2.5-32b-instruct, một mô hình mã nguồn mở không có khả năng suy luận. Mô hình này được đào tạo với 3, 9 epoch, tỷ lệ tự học chỉ là 1e-5, kích thước của khối 96. Huấn luyện mô hình với tốc độ DeepSpeed box-3 được hoàn thành thành công trong 19 giờ (khoảng 450 đô la theo giá Lambda Cloud). Chúng tôi luyện tập với nhà máy Llama. Đánh giá và kết quả hình ảnh 3, kích thước của các mô hình khác là quan trọng. Ban đầu chúng tôi đã thử huấn luyện trên các mô hình nhỏ hơn (7B và 14B), nhưng chỉ có những cải tiến thích hợp được quan sát. Thí dụ, việc đào tạo qwen2.5-14b-coder-tinstruct trên bộ dữ liệu ứng dụng đã dẫn đến một sự cải thiện trong hiệu suất của LiveCodeBench, từ 42.6% lên 46.3%. Tuy nhiên, sau khi kiểm tra bằng tay đầu vào các mẫu nhỏ hơn (lớn hơn 32B), chúng tôi thấy rằng chúng thường tạo ra nội dung lặp đi lặp lại để kiểm soát hiệu quả của chúng. Hỗn hợp dữ liệu rất quan trọng. Chúng tôi bắt đầu đào tạo một mô hình 32B với các vấn đề toán học 3-4k từ tập dữ liệu của Numina (còn 2 cung cấp), và độ chính xác của AIME24 đã tăng đáng kể từ 16.7% lên 43.3%. Tuy nhiên, khi chúng tôi đưa dữ liệu mã hóa từ bộ dữ liệu ứng dụng vào quá trình đào tạo, độ chính xác của AIME24 tăng lên đến 36.7%. Chúng tôi cho rằng sự suy giảm này là do cách suy luận khác nhau giữa toán học và công việc lập trình. Lập luận lập trình thường bao gồm các bước lôgic bổ sung, chẳng hạn như biểu diễn kết quả thử nghiệm hoặc thực hiện đoạn mã được tạo ra bên trong, trong khi lập luận các vấn đề toán học thường dễ dàng và có cấu trúc hơn. Để giải quyết những khác biệt này, chúng tôi đã phân tích các vấn đề toán học khó khăn bằng dữ liệu của NuminaMath và các nhiệm vụ mã hoá phức tạp trong tập dữ liệu TACO với nhiều dữ liệu huấn luyện khác nhau. Sự pha trộn cân bằng dữ liệu này đã làm cho mô hình hoạt động tốt trong cả hai lĩnh vực, khôi phục lại bình thường trên AIME24 với độ chính xác 43.3%, đồng thời cải thiện khả năng lập trình của nóIv, future work Sky- t1-32b-preview đánh dấu khởi đầu cuộc hành trình của chúng tôi để phát triển một mô hình mã nguồn mở với khả năng lập luận cao cấp về tiểu thuyết. Nhìn về tương lai, chúng tôi sẽ tập trung vào việc phát triển các mô hình hiệu quả hơn, duy trì khả năng suy luận mạnh mẽ, và chủ động khám phá các công nghệ tiên tiến để cải thiện hiệu quả và độ chính xác của mô hình trong khi thử nghiệm. Xin quý vị chú ý đến những tiến bộ của chúng tôi trong những dự án thú vị này. Điều này đã được hoàn thành thành công tại berkley sky sort lab với sự hỗ trợ tích cực từ Lambda Labs và Anyscale. Chúng tôi phải cảm ơn Junyang Lin của đội still-2 và đội Qwen vì đã cung cấp thêm phản hồi và sự hỗ trợ học thuật quý giá. Liên kết trang web ##ai doanh nghiệp ## microblog cross-domain project # trẻ em lớn lên trong ba ngàn bảy mươi ba ngàyHai cậu bé

Copyright © 2021 Hanoi People All Rights Reserved