【人工智能】数据集合集!
本文旨在为读者阐述经典的、热门的数据集,并能帮助您选择合适的 datasets。
1
WriteGPT
更新时间:2024-03-31
访问地址: GitHub
描述:
WriteGPT is developed with OCR and NLP as its foundation, serving as an AI framework for generating text. The initial fine-tuned version is specifically designed for essay composition in the gaokao, emphasizing expository writing. It is capable of producing texts that resonate with human cognitive patterns. Testing shows that the majority of generated essays meet the proficiency level expected of typical high school seniors.
主要依托于EAST、CRNN、Bert及GPT-2等语言模型构建而成的高考作文生成系统。该系统可搭配BERT tokenizer进行输入处理,并采用CLUE中文分词技术进行语料分析。目前版本整合了拥有17亿参数的多模态异构深度神经网络架构,并积累了超过2亿条高质量预训练样本数据。该平台提供即时响应能力的在线高考作文辅助系统:的强大至极的写作支撑能力使其成为一项极具竞争力的文字处理方案。该系统实现了从试卷扫描识别到答题卡输出的一整套端到端自动化解决方案
数据集网址:
https://github.com/Turing-Project/WriteGPT
2
lobe-chat
更新时间:2024-12-31
访问地址: GitHub
描述:
该产品是一款具备开源性质的现代化设计的人工智能聊天框架系统。它支持多种主流的人工智能服务提供商如OpenAI Claude 3 Gemini Ollama Bedrock Azure Mistral以及Conspirity等平台提供的人工智能服务,并整合了多模态功能(包括视觉识别Vision和语音合成TTS)。用户可通过一键操作即可快速搭建属于自己的私有化ChatGPT对话平台以满足个性化沟通需求
数据集网址:
https://github.com/find-xposed-magisk/lobe-chat
3
Thor
更新时间:2024-12-29
访问地址: GitHub
描述:
作为强大的AI模型管理工具之一, Thor(雷神托尔)旨在实现多种AI模型的统一管理和灵活应用。借助该工具( Thor ),用户能够便捷地操作和管理多个AI模型,并且支持 OpenAI 接口规范, 使用更加便捷高效。
用途:
管理功能:支持用户管理,渠道管理以及token管理,简化了管理流程。
数据统计预览:能够直观呈现不同类别数据的统计结果,并能让用户更直观地掌握使用细节
日志查看:支持日志查看,方便用户跟踪和解决问题。
系统设置:可以根据需要进行各种系统设置。
外部Chat链接接入:支持接入外部Chat链接,提升交互体验。
支付宝账户余额支付功能:支持支付宝账户余额支付功能的操作能够让用户体验到便捷的充值服务。
数据集网址:
https://github.com/AIDotNet/Thor
4
awesome-ai-tool
更新时间:2024-12-06
访问地址: GitHub
描述:
Top AI Tools Hub 是一个精选的人工智能工具集合。该集合涵盖了机器学习、深度学习以及自然语言处理等技术领域,并致力于为开发者提供便捷的应用场景选择与资源获取途径。本平台诚邀 contributions from the community, 力图构建一个囊括各类AI技术的应用平台
数据集网址:
https://github.com/XiaomingX/awesome-ai-tool
5
JavaVision
更新时间:2024-03-29
访问地址: GitHub
描述:
这个全能视觉智能识别项目被称为 JavaVision,并且它是一个以 Java 为开发语言的应用程序。该应用项目的创建源自于我们对图像处理技术和人工智能领域的深厚兴趣以及对 Java 语言作为主要编程语言的坚定信仰。在 AI 技术领域中现有的许多解决方案都是基于 Python 开发的,因此决定发挥 Java 的优势特性,利用其强大的性能支撑来构建一个既功能丰富又便于与其他系统集成的应用平台
数据集网址:
https://github.com/javpower/JavaVision
6
-eBPF-
更新时间:2024-12-30
访问地址: GitHub
描述:
该系统是基于eBPF技术设计的容器异常检测框架。其目标是通过采集容器的行为特征与指标数据,并借助于人工智能算法进行自动化的异常行为检测。
Agent 在运行时利用Linux eBPF技术监控系统与应用程序的状态。通过对收集到的数据进行分析来识别可能的异常活动。该系统提供性能评估、容器集群网络可视化、 containerside 安全警报提示、一键部署选项以及持久化存储监控等功能。其设计便于扩展配置并能够轻松集成新的功能模块。核心组件及其命令行工具的二进制文件体积最小仅为约4MB,并且可以在现有的Linux内核架构上稳定运行
在企业生产环境中部署Agent系统有助于增强系统的安全性与可靠性,并改善系统的性能。同时能够降低运维管理的复杂性并提高合规性水平。通过实时监控机制以及自动化异常检测技术的应用能够生成详细审计日志记录以确保网络安全威胁得到及时发现与应对。此外该方案还能够提高资源利用率并减少运营成本从而确保整体符合相关法律法规的要求
数据集网址:
https://github.com/ZongaoHuang/-eBPF-
7
LangChain-Tutorials-and-Examples
更新时间:2024-07-02
访问地址: GitHub
描述:
LangChain整合了大型语言模型、知识库以及计算逻辑,并可快速构建强大的AI应用系统。这个仓库系统记录了我的学习历程以及实践经验积累,并包含丰富的教程资料及代码案例参考资源。让我们共同挖掘该技术体系的潜力,并促进该领域的发展!
数据集网址:
https://github.com/aihes/LangChain-Tutorials-and-Examples
8
HuaTuoAI
更新时间:2024-09-06
访问地址: GitHub
描述:
基于人工智能的中医图像分类技术已初步实现。本存储库包含一个针对中药的人工智能图像分类系统。该系统旨在通过输入高分辨率医学影像图实现对各种中草药及其成分的快速准确识别与分类。这里隐藏着一个令人惊叹的宝藏:专为中药开发的人工智能图像分类系统。如同一位冒险指南者,在这项项目中我们的任务就是将复杂的医学影像转化为精确识别出的中药及其成分信息。让我们共同探索这个数字世界的奥秘,并揭示植物背后的奥秘。借助先进的技术和智能化算法工具组成员们有望深入探索中药的世界并推动中医药现代化发展
数据集网址:
https://github.com/ctkqiang/HuaTuoAI
9
algorithmStar
更新时间:2024-12-06
访问地址: GitHub
描述:
该机器学习库支持多种度量系数的计算,并且实现了k近邻算法、决策树模型以及线性回归等基本机器学习算法的组件构建。此外还配备了基于SQL编程的数据计算引擎,并结合了强大的计算机视觉技术库,在满足多种人工智能应用场景时展现出较高的灵活性和实用性。
数据集网址:
https://github.com/BeardedManZhao/algorithmStar?tab=readme-ov-file
10
TeleChat2
更新时间:2024-12-27
访问地址: GitHub
描述:
该系列智能对话系统由中国电信人工智能研究院进行研发与训练;这些系统全部依托国产计算能力实现训练。
在开源项目中公开提供了 TeleChat2-3B、TeleChat2-7B 和 TeleChat2-35B 模型,并具备工具调用功能。我们对Function Call进行了针对性优化措施,并通过相关榜单评测显示其性能优于同尺寸模型
TeleChat2-115B模型基于10万亿 Token的中英文高质量数据资源进行训练,并配合开源对话模型TeleChat2-115B的多种格式与不同平台上的权重配置。
TeleChat2 在训练数据与训练方法方面实现了优化,在通用问答与知识类领域相较于 TeleChat1 实现了显著超越;同时,在代码类与数学类榜单上也取得了显著进步。
在微调训练过程中, 我们一方面提升了指令执行的复杂度和多样化程度, 另一方面实现了数据分析的全面拓展, 通过引入创新性的特征提取算法, 有效提升了模型处理能力; 同时, 我们开发了一种基于基础模型的反向优化方法用于偏好对齐的数据集构建, 并利用适配优化后的训练集持续提升模型性能
数据集网址:
