谷歌开源博客宣布 AI 驱动的文件类型检测系统 Magika 1.0 发布。该版本较初代有重大升级:支持文件类型从约 100 种扩至 200 余种,新增数据科学、现代编程、DevOps 等领域格式;核心引擎用 Rust 重构,搭配 ONNX Runtime 和 Tokio,单核心每秒可识别数百文件,M4 MacBook Pro 上近千文件 / 秒;提供 Rust 原生命令行客户端及优化的 Python、TypeScript 模块。开发中借 SedPack 处理 3TB 训练数据,用 Gemini 生成合成数据解决样本稀缺问题。用户可通过脚本或 pipx 安装,开发者可参考文档集成,未来欢迎社区反馈与贡献。
© 版权声明
文章收集自互联网,如有侵权,请联系删除