词根精修任务包
当前策略
先精修 50-80 个高价值词根,不继续盲目扩展 600 个页面。每次精修只改小批量页面,所有自动候选必须经过词源核验后才能进入正文词族。
执行入口
- 总审计:词根库质量审计
- 标准模板:词根条目模板
- 候选总索引:法语词根候选词总索引
- 批处理报告:词根批量整理报告
三轮推进
| 轮次 | 目标 | 页面范围 | 完成标准 |
|---|---|---|---|
| 第一轮 | P0 基础词根二次核验 | 8 个高频基础词根 | 每页补齐最终模板,核心词有中文义、例句、词源关系、语法钩子 |
| 第二轮 | P1 短词根排雷 | 24 个最高风险短根 | 明确 keep / exclude / uncertainty,形似词不再混入正文 |
| 第三轮 | P2 长页抽样精修 | 24 个资料多或混入风险页 | 拆出高频必背词、扩展词族、易混排除,保留原始资料折叠 |
第一轮 P0 页面
| 顺序 | 页面 | 任务重点 |
|---|---|---|
| 1 | duire | 区分 conduire、produire、réduire 等核心动词;补不规则变位钩子 |
| 2 | faire | 把 faire 词族和 fact/fect/fic 词族拆清楚,排除只是形似的词 |
| 3 | mouv | 区分 mouvement、mobile、émouvoir、mouvoir 的语义链 |
| 4 | post | 区分 poser、position、proposer、déposer、poste/poster |
| 5 | port | 分清 porter、apporter、emporter、importer、supporter 与 porte/port |
| 6 | venir | 区分 venir、devenir、revenir、prévenir 与 vent/ventre 等疑似误收 |
| 7 | vit | 保留 vivre/vie/vivant,排查 bien、ville、visage 等极短根误收 |
| 8 | vid | 区分 voir、vision、visible、visage、évidence 与 avoir/pouvoir/savoir |
第二轮 P1 短词根排雷
| 顺序 | 页面 | 典型误收样例 | 处理要求 |
|---|---|---|---|
| 1 | av | avoir、avant、avion、avis | 已完成短根清理样板;后续只做来源二次核验 |
| 2 | bé | beau、beaucoup、besoin、battre | 极短根,默认先排除,除非词源可证 |
| 3 | fl | fleur、flic、flamme、fleuve | 分清 fl- 形似词和真正吹胀义词族 |
| 4 | im | imaginer、important、immense | 注意 im- 经常只是前缀,不等于词根 |
| 5 | éd | odeur、édition、éducation | 先查词源,不按前两字母收词 |
| 6 | or | ordre、oreille、origine | 和其它 or 页互相引用,避免重复误收 |
| 7 | or | ordre、oreille、origine | 需判断这个页面是否应合并、保留或降级为疑问页 |
| 8 | ut | utiliser、usine、utile、usage | 区分 usage/use 系与其它 us- 形似词 |
| 9 | nud | nuit、numéro、nuage、nul | 保留 nu/nud 裸露义,移除云、夜、数等词族 |
| 10 | nub | nuit、numéro、nuque | 和 nud 页交叉排除,保留云义同源词 |
| 11 | it | italien、irriter、ironie | 这个页面误判风险极高,优先人工词源核验 |
| 12 | oo | ovale、ovni、overdose | 保留 ovi-/ovo-,排除英语借词或形似词 |
| 13 | ann | encore、enfant、entendre | en- 多数是前缀或普通拼写,默认不收 |
| 14 | oz | olivier、olive、ozone | odor 系与 ol/oz 形似词分开 |
| 15 | am | ami、amour、âme | 和爱义 am 页互相排除 |
| 16 | am | amener、amuser、âme | 保留 aimer/ami/amour,排除无关 am- |
| 17 | hod | odeur、odieux、odorat | 与气味页互相排除 |
| 18 | act | ami、amour、âge、âme | 保留 act/ag 行动义,排除 am/ig/og 低置信词 |
| 19 | veh | vie、vivre、visage | 与 voir、viv 页面互相排除 |
| 20 | riv | rue、russe、rumeur | 保留 river/rivière 相关,排除 rue/ru- 形似词 |
| 21 | lu | laisser、lumière、lancer | lav- 可信,lu- 高风险 |
| 22 | ligat | lire、lit、livre、libre | ligat/obliger 可信,li- 默认排除 |
| 23 | éd | être、état、été | 多义混页,先拆义场再决定保留 |
| 24 | équi | 需看页面排除项 | équi 可信,ég 极短高风险 |
第三轮 P2 长页抽样
| 顺序 | 页面 | 优先处理 |
|---|---|---|
| 1 | clos | 关、钥匙、钉三义是否混杂 |
| 2 | miss | mettre 与 mission/message 是否分层 |
| 3 | just | 法律、发誓、正义分层 |
| 4 | pod | pied/péd/pod 与 piété/piètre 排除 |
| 5 | gramm | graph 与 gramm 分层 |
| 6 | lumin | 光、月、白是否拆成子族 |
| 7 | croire | croire 与 crédit/créance 关系 |
| 8 | gress | grade、progrès、agression 是否误混 |
| 9 | habil | habiter、habit、habiller、habitude 分层 |
| 10 | mère | mère/mater/métr(o) 与 métro 排除 |
| 11 | dire | dire/diction/dicter/discours 分层 |
| 12 | faute | falloir、faute、faillir、faux 关系 |
| 13 | métr | mesure/mètre 与 mensonge 排除 |
| 14 | neur | 医学词族优先保留 |
| 15 | pand | passer 与扩展义分层 |
| 16 | pat | passion/patient 与 passer 分开 |
| 17 | manu | main/manu/manche/mander 是否混杂 |
| 18 | jonct | joindre/jonction/jug 是否分层 |
| 19 | morph | forme/former/morphologie 分层 |
| 20 | chef | head/首义与 chapter 义分层 |
| 21 | corpor | corps/corporation/cors 排除 |
| 22 | fluv | flow 义和 fleurir 排除 |
| 23 | cord | cœur/courage/cordial 与 cour/cours 排除 |
| 24 | livr | libre/libérer 与 livre/livrer 分开 |
Subagent 分工指令
A-F 组
任务范围:A 到 F 开头词根页,优先处理 P1 短根和 P2 长页。
重点:不要继续扩词;先把误收词移入 易混 / 排除词。
G-M 组
任务范围:G 到 M 开头词根页。
重点:资料多的长页先拆子词族,再补例句。
N-S 组
任务范围:N 到 S 开头词根页。
重点:短根、同形异源、常见前缀误判要单独列为 uncertainty。
T-Z 组
任务范围:T 到 Z 开头词根页。
重点:补语法钩子,尤其动词变位、名词阴阳性、形容词配合。
审核组
任务范围:抽查每组输出。
重点:如果一个词只因拼写相似被收入正文,必须退回;不确定的词不要硬判,放 uncertainty。
标准补丁格式
## target
`[[目标词根页]]`
## keep
| 词 | 中文义 | 词源关系 | 来源 |
|---|---|---|---|
## exclude
| 词 | 为什么排除 | 应移到哪里 |
|---|---|---|
## add
| 词 | 中文义 | 为什么要补 |
|---|---|---|
## examples
| 法语例句 | 中文 | 语法钩子 |
|---|---|---|
## uncertainty
| 词 | 不确定原因 | 下一步核验 |
|---|---|---|单页验收标准
- 有
核心图像 - 有
核心义 - 有
词根变体 - 有
高频必背词 - 有
扩展词族 - 有
易混 / 排除词 - 有
例句 - 有
语法钩子 - 有
来源核验 - 原始资料折叠保留
- 自动候选不直接等于正文词族
- 短根页面至少列出 5 个排除/待核验词
下一步建议
av 已作为第一张短根清理样板跑通。下一张建议处理 ligat,因为它同时包含可信词族 ligature / obligation 和明显误收 lire / lit / livre / libre,适合作为第二个排雷样板。