欢迎来到 AICodingAssistant 的文档!
Note
本项目是一个基于GPT-3.5的编码助手,目前支持根据编码框架对MOOC论坛中话题下的回帖数据进行编码。 当前项目还在开发中,以后会提供更多的功能,敬请期待。
【目标用户】
研究者 本项目可以帮助研究者快速对论坛中的回帖数据进行编码,提高编码效率,减少编码错误。
【操作流程图】
【项目目录结构】
【使用说明】
「编码前的准备工作」
1 在开始编码之前,你需要准备以下数据:
1.1 API_key,放在api_key.txt文件中:
申请API_key,用于调用编码接口。
API_key查看地址:https://api2d.com/forward_key/list
API_key示例:fk203018-8OyNua…
复制API_key到剪贴板,然后将其粘贴到api_key.txt文件中。
⚠️注意:本编码工具是不收费的,但使用API_key需要支付费用给api2d,使用前请记得充值(编码5000条数据不到100块)。
你可以使用这个链接前往充值:https://api2d.com/r/203018, 这样我每次可以获得100P(0.21元)的推广奖励。
1.2 输入数据,放在input文件夹下的topic.csv和reply.csv中:
字段 |
类型 |
描述 |
---|---|---|
index |
int |
待编码文本的唯一标识符,是回帖ID |
user_id |
int |
回帖的用户ID |
user_name |
str |
回帖的用户昵称 |
reply_content |
str |
回帖内容 |
topic_id |
int |
回帖的话题ID |
reply_id |
int |
回帖ID |
to_reply_id |
int |
回帖的父级回帖ID |
reason |
str |
编码理由,这一列可以空着 |
字段 |
类型 |
描述 |
---|---|---|
topic_id |
int |
话题ID |
topic_title |
str |
话题标题 |
topic_content |
str |
话题内容,一半是话题的详细描述,这里可以空着 |
1.3 编码规则,放在coding_scheme文件夹下的coding_scheme.csv中:
字段 |
类型 |
描述 |
---|---|---|
category |
str |
编码分类 |
code |
str |
编码指标代码 |
indicators |
str |
编码指标 |
example |
str |
指标的示例(这一列可以不要) |
「编码过程中的错误处理」
2 编码过程中,GPT的回复可能会出现错误,错误信息和错误处理方式如下:
2.1 错误信息处理方式:
查看output文件夹下面coding_error.txt文件,如果有编码错误,需要手动处理。
复制coding_error.txt中的每一行数据,到coding_result.txt文件中搜索,找到对应的数据,然后手动处理将其更正为标准数据格式。
处理完毕后,删除coding_error.txt文件或删除文件中的所有数据。
⚠️推荐使用vs code 打开coding_result.txt文件,它可以高亮显示大部分错误。
标准的数据格式如下:
{"reply_id":"557092","tags":["E-3"],"reason":["回帖中提到了对教师备课的重要作用,这符合编码表中的建议和思考(E-3),即对建议进行考虑"]}
2.2 常见的错误有:
末尾缺少一个“}”,请补充。
reason中有英文的引号,请在英文引号前添加转义符“”。
末尾多了一个逗号,请删除。
一行数据包含了多个结果,如{…},{…},请将其拆分为多行。
一样数据包含多个结果,但其中一个结果是错误的,如{…},reply_id…},显然,reply_id前缺少一个“{”,请将错误的结果补全并拆分。
「编码后的结果」
字段 |
类型 |
描述 |
---|---|---|
user_id |
int |
回帖的用户ID |
user_name |
str |
回帖的用户昵称 |
reply_content |
str |
回帖内容 |
topic_id |
int |
回帖的话题ID |
reply_id |
int |
回帖ID |
to_reply_id |
int |
回帖的父级回帖ID |
reason |
str |
编码理由 |
code_indicator 1 |
int |
0或1,1表示这一条回帖中包含了编码指标1 |
code_indicator 2 |
int |
0或1,1表示这一条回帖中包含了编码指标2 |
… |
int |
0或1,1表示这一条回帖中包含了编码指标… |
code_indicator n |
int |
0或1,1表示这一条回帖中包含了编码指标n |
【下载地址】
【联系方式】
暂时写这么多吧,应该够用了,有问题可以联系我,谢谢!
微信: etshaw8888
个人主页: https://xiaojianjun.cn
微信公众号: EdTech肖建军
邮箱: et_shaw@126.com
地址: 北京师范大学科技楼C区1005A室