由网友 科技州与数据州 提供的答案:
机器学习需要大量的数据进行训练,因此,实践中学到的最重要的机器学习经验是:数据质量至关重要。
具体来说,数据质量包括以下几个方面:
1. 数据完整性:数据完整性是指数据是否包含所有必要的信息,是否存在缺失值或异常值等问题。如果数据不完整,可能会影响模型的训练和预测结果。
2. 数据准确性:数据准确性是指数据是否真实、准确、可靠。如果数据不准确,可能会导致模型训练出现偏差或错误的预测结果。
3. 数据一致性:数据一致性是指数据是否符合逻辑,是否存在冲突或矛盾。如果数据不一致,可能会导致模型训练出现不合理的结果。
4. 数据可用性:数据可用性是指数据是否易于获取、处理和使用。如果数据不可用,可能会导致模型训练时间过长或无法进行模型训练。
因此,在进行机器学习时,需要仔细检查数据的质量,包括数据完整性、准确性、一致性和可用性等方面,保证数据的质量和可靠性,从而提高模型的精度和可靠性。同时,还需要不断地进行数据清洗和预处理,以提高数据的质量和可用性。
由网友 数智圈DTS 提供的答案:
- 早点按生产环境,开发环境,测试环境及流水线跑模型,不要总在本地跑。免去一些不可重复实现的结果以及提高出产品的效率。
- 选算法时要考虑好之后的一些需求。有时可以结合OR做。
- 用一些监视工具来预警和提高性能。另外刚开始选的数据源也很重要。
由网友 夕小瑶科技说 提供的答案:
NLP&搜索算法三年,随手写几条
- 用迭代思维解决机器学习问题,而不是指望想出一个惊天地泣鬼神的神仙idea或寄希望于找到一篇神仙论文
- 算法与系统不是割裂的,模型与规则也不是互斥的。放下个人的偏见和执念,往往能更加科学合理快速的解决机器学习问题
- 选对评价指标是正确迭代的大前提,重视评价指标的偏向性和"视野盲区"
- 重视数据的采样有偏性和时效性,拿出精力去感性或理性的理解手头的数据分布有助于快速解决问题、避免走弯路
- 关注标注数据的标注标准、标准执行和数据验收情况,这是机器学习模型很多诡异行为的根源
部分文章源于互联网收集,不代表默子网络立场,版权归原作者所有,如若转载,请注明出处:https://www.html369.cn/34031.html