我要竞标
为AI数据分析产品搜集并定制多领域数据集
为AI数据分析产品搜集并定制多领域数据集
一、 任务标题
【高价值/可长期合作】为AI数据分析产品寻找并定制多领域公开数据集
二、 公司与项目背景
我们是一款领先的AI数据分析与可视化SaaS产品,致力于帮助各行业用户轻松洞察数据价值。为筹备即将上线的“数据市场 (Data Market)”功能,我们现需寻找并整理一批高质量、真实、可商用且具有行业代表性的公开数据集。
我们寻找的不是简单的“数据搬yun工”,而是专业的**“数据猎人”或数据分析师**,能够理解数据价值,并按照我们的高标准完成数据集的搜集、整理与交付。本次项目表现优秀的服务商,将有机会成为我们的长期数据合作伙伴。
三、 核心任务与目标
在一个月内,根据我们指定的领域和数据字段要求,搜集、清洗并整理 [请在此填写您期望的数据集数量,例如:《副业类型与实际收入数据》,《全国岗位薪资与职业发展数据》,《城市生活成本与压力指数数据》,《行业增长与就业趋势数据》 ] 不同主题的高质量数据集。
三大硬性要求(无法满足请勿投标):
数据真实可溯源:所有数据必须来自公开、权威、可信的渠道,并提供明确的来源链接和采集方法说明。
数据字段定制化:您需要根据我们为每个数据集定义的字段要求,对原始数据进行提取、清洗、转换和格式化。
一个月内交付:整个项目需在合同签订后的30天内完成所有数据集的最终交付。
四、 任务详细流程与要求
第一阶段:数据集主题与来源确认 (项目启动后3天内)
服务商需根据此清单,反向提供一份详细的“数据搜集方案”。方案需针对每个主题,列出您计划搜集的具体数据源(如:XX政府数据开放平台、XX行业协会官网、XX上市公司年报、XX学术研究报告等),并评估其数据量、时效性、可行性和使用许可。
双方共同审核并确认最终要执行的数据集主题和来源后,签订正式合同并进入下一阶段。
第二阶段:数据采集与定制化整理 (项目启动后4-25天)
数据采集:通过合法、合规的方式(如公开数据下载、API调用、编写网络爬chong等)获取原始数据。
数据定制化处理(核心工作):
字段提取/生成:根据我们为每个数据集定义的字段(列)要求,从原始数据中提取或通过计算生成相应字段。
数据清洗:处理缺失值(明确标注或按规则填充)、异常值和重复值,确保数据整洁可用。
格式统一:统一日期格式(如 YYYY-MM-DD)、地理位置信息、文本格式(如去除多余空格和特殊字符)、数值单位等。
数据量要求:为保证分析价值,每个数据集的记录(行)数原则上应不少于 [请填写最小行数要求,例如:5,000条],具体视主题而定。
第三阶段:交付与验收 (项目启动后26-30天)
详见下面的“交付要求”。我们将对每一份数据集进行严格的审核。
交付要求 (最终验收标准)
您需要为每一个确认搜集的数据集,提供一个独立的压缩包(如 数据集名称.zip),其中必须包含以下三份文件,缺一不可:
1.数据集文件 (Data.csv)
格式:必须为 .csv 格式,UTF-8编码。
结构:第一行为清晰的英文或中文拼音字段名(Header),内容严格按照我们定制的字段要求和顺序排列。
质量:数据内容需经过精细清洗,无明显错误和格式问题,可直接导入数据分析工具。
2.数据溯源与许可说明 (Source_and_License.md)
格式:必须为Markdown (.md) 文件。
内容(极其重要):
原始数据来源:提供所有直接的、可点击的原始数据来源链接。如果是通过API获取,请提供API文档链接和调用的主要参数。
数据时效性:说明该数据的覆盖时间范围(例如:2023年1月1日 - 2023年12月31日)。
采集方法详述:详细描述您是如何从源头获取到这份数据的(例如:从XX网站下载了官方发布的Excel文件并进行转换;编写Python脚本爬qu了XX网页的表格数据,可附上核心代码片段等)。
许可与版权(核心):明确说明该数据源的版权和使用许可(例如:Open Government License, CC0, Public Domain, MIT License等),并提供许可声明的源链接,确保数据可用于商业目的。
3.数据字典 (Data_Dictionary.md)
格式:必须为Markdown (.md) 文件。
内容:以表格形式,清晰说明每一个字段的详细信息。 | 字段名 (Field Name) | 数据类型 (Data Type) | 字段含义 (Description) | 备注/示例 (Notes/Example) | | :--- | :--- | :--- | :--- | | order_id | String | 订单的唯一标识符 | e.g., "20231111-12345678" | | payment_time | Datetime | 用户完成支付的时间 (YYYY-MM-DD HH:mm:ss) | 时区为UTC+8 | | price | Float | 商品单价(人民币元) | e.g., 199.9 | | category | String | 商品所属的二级类别 | e.g., "护肤", "彩妆" |
这项目目前还没用户竞标呢! 



